볜위통

🏷️ 인물 LLM 멀티모달 추론 교수 Star

개요

볜위통(Yutong Bian)은 홍콩 이공대학교(PolyU) 컴퓨팅학부 NLP 그룹 소속 박사 연구원입니다. 리원제(Wenjie Li) 교수의 지도 아래 멀티모달 대형 언어 모델의 추론 효율화를 주요 연구 테마로 삼고 있습니다.

2026년 arXiv에 발표한 Optical Reasoning - Rethinking Images as an Expressive Reasoning Medium Beyond Text 논문의 제1저자로 주목받았습니다. 이 논문은 텍스트 기반 추론 과정을 이미지라는 매체로 대체함으로써 토큰 소비를 줄이면서도 추론 품질을 유지하거나 향상시킬 수 있다는 아이디어를 체계화했습니다.

PolyU NLP 그룹은 EMNLP, ACL, ICML 등 최상위 학회에 꾸준히 논문을 발표하는 연구 그룹으로, 볜위통은 그 안에서 멀티모달 추론 효율화를 특화 분야로 잡고 연구를 진행하고 있습니다.

생애

홍콩 이공대학교 컴퓨팅학부에서 박사과정을 밟고 있습니다. 지도교수인 리원제 교수는 PolyU NLP 그룹을 이끌며 감정 기반 대화, 목표 주도 대화 추천, 멀티모달 질의응답, 인과 추론 등 다양한 NLP 연구를 지휘하는 연구자입니다.

박사과정 입학 이전의 학부·석사 이력은 공개된 정보가 제한적입니다. PolyU NLP 그룹의 특성상 멀티모달 언어모델과 추론 효율화라는 두 가지 축을 중심으로 연구 방향을 잡은 것으로 보입니다.

2026년 현재 Optical Reasoning 논문을 주축으로 연구 커리어를 쌓아 가는 단계로, 추가 연구 성과가 기대되는 신진 연구자입니다.

업적

2026년 6월 발표한 Optical Reasoning 논문에서 이미지를 추론 매체로 활용하는 두 가지 구체적인 방법을 제안하고 직접 구현했습니다. 첫 번째 변형인 T-OR(Typographic Optical Reasoning)은 XeLaTeX 기반 레이아웃 최적화를 통해 텍스트 추론 과정을 시각적으로 컴팩트하게 렌더링합니다. 두 번째 변형인 G-OR(Graphical Optical Reasoning)은 Nano Banana 2 모델을 활용해 텍스트와 그래픽 요소를 구조화된 시각 추론 표현으로 합성합니다.

이 접근 방식은 광학적 문맥 압축(optical context compression) 기법에서 영감을 받아 추론 단계 자체를 이미지로 렌더링한다는 점에서 기존 텍스트 체인-오브-쏘트(chain-of-thought)와 본질적으로 다릅니다. 논문에서는 이미지 기반 추론이 다양한 벤치마크에서 텍스트 추론을 따라잡거나 일부 능가함을 실험적으로 보였습니다.

PolyU NLP 그룹의 ICML 2026 수락 논문 중 하나로 포함되며, 멀티모달 추론 커뮤니티에서 가시성이 높아졌습니다.

여담

Optical Reasoning 논문이 제기하는 핵심 질문은 "추론 매체가 반드시 텍스트일 필요가 있는가"입니다. 이 질문은 당연해 보이지만, 대형 언어모델 연구 커뮤니티에서 텍스트 시퀀스가 사실상 유일한 중간 추론 매체로 취급받아 온 관행에 정면으로 도전합니다.

PolyU NLP 그룹 자체가 다양한 언어, 문화, 맥락을 다루는 데 강점을 가진 그룹인 만큼, 텍스트 언어 경계를 넘어 시각적 매체로 추론을 확장하는 연구가 자연스럽게 이어지고 있다는 평가가 있습니다.

아직 박사과정 재학 중인 신진 연구자이기 때문에 향후 추론 효율화와 멀티모달 통합이라는 두 축에서 어떤 방향으로 연구를 심화시킬지 주목됩니다.

주요 논문