Weimin Xiong

🏷️ 인물 NLP GUI에이전트

베이징대학교 EECS 학과 Sujian Li 그룹의 박사과정 학생입니다. NLP 일반 트랙에서 출발해 최근에는 GUI 에이전트 사전학습 데이터 합성, 비디오로부터의 인터랙션 추출처럼 멀티모달 에이전트의 데이터 측 병목을 푸는 쪽으로 좁혀 들어가는 모습이 눈에 띕니다.

본 논문 Video2GUI은 Xiaomi LLM-Core 팀 인턴 기간에 수행한 작업이며, 1저자로서 5억 개 메타데이터 → 1,200만 트래젝토리에 이르는 coarse-to-fine 파이프라인을 직접 설계·검증했습니다. PKU의 Sujian Li 그룹과 Xiaomi의 Hao Tian 라인을 연결하는 학생 측 허브 역할을 맡았고, ICML 2026 accept로 박사 단계에서 산업 협업 결과물을 굵직하게 남기는 출발선을 그었습니다.

Google Scholar 프로필은 누적 인용이 두 자리로 아직 작지만, 작업의 스케일(약 4.16M 비디오 / 300K시간 / 12.7M 트래젝토리)을 고려하면 1저자 단독 책임의 규모는 분야 평균을 크게 웃돕니다.