Haodong Duan

개요

단 하오둥(Duan Haodong, 段浩东)은 상하이 인공지능 연구소(Shanghai AI Laboratory, SAIL) 소속 박사후 연구원입니다. 멀티모달 대형 언어 모델(MLLM) 평가를 핵심 연구 주제로 삼으며, 오픈소스 평가 툴킷 VLMEvalKit과 대규모 멀티모달 벤치마크 MMBench의 주요 저자로 이름을 알렸습니다. 평가 인프라를 직접 구축하고 공개하는 방식으로 커뮤니티에 실질적인 기여를 이어오고 있습니다.

그의 작업물은 단순한 논문 발표에 그치지 않고, 연구자들이 즉시 사용할 수 있는 툴킷 형태로 공개된다는 점에서 실용성이 높습니다. VLMEvalKit은 2024년 ACM MM에 채택된 이후에도 지속적으로 업데이트되며 MLLM 평가의 사실상 표준 도구 중 하나로 자리 잡았습니다. MMSI-Bench(다중 이미지 공간 지능 벤치마크)가 2026년 ICLR에 채택되는 등 연구 범위를 꾸준히 확장하고 있습니다.

생애

단 하오둥은 홍콩중문대학교(CUHK) CUHK MMLab에서 Dahua Lin 교수의 지도 아래 박사 학위를 취득했습니다. CUHK MMLab는 컴퓨터비전·멀티모달 AI 분야에서 활발한 연구 성과를 내는 그룹으로, 단 하오둥은 이 환경에서 멀티모달 모델 평가 방법론을 체계화하는 작업에 집중했습니다. 2023년 박사 과정을 마친 뒤 현재 직장인 SAIL로 이동해 박사후 연구원으로 재직 중입니다.

SAIL은 중국 정부의 지원을 받는 대형 AI 연구 기관으로, 자체적인 대규모 연산 자원과 데이터 인프라를 갖추고 있습니다. 이 환경은 대규모 MLLM 평가 실험을 수행하는 단 하오둥의 연구와 잘 맞아 떨어지며, 졸업 후에도 린 다후아 교수 그룹 및 CUHK 동문 네트워크와의 협업을 이어가고 있습니다.

업적

단 하오둥의 대표 기여는 세 갈래로 정리할 수 있습니다. 첫째는 MMBench로, "Is Your Multi-modal Model an All-around Player?"라는 제목 아래 멀티모달 모델의 다면적 능력을 체계적으로 측정하는 벤치마크입니다. 이 논문은 ECCV 2024에서 구두 발표(Oral)로 선정되어 높은 평가를 받았습니다.

둘째는 VLMEvalKit으로, 대형 멀티모달 모델 평가를 위한 원스톱 오픈소스 툴킷입니다. 2023년 12월에 최초 공개된 이후 ACM MM 2024에 채택되었으며, 다양한 모델과 벤치마크를 통일된 인터페이스로 평가할 수 있어 연구 커뮤니티에서 널리 쓰이고 있습니다. 셋째는 MMMU-Pro로, 기존 MMMU 벤치마크의 난이도 및 신뢰성을 높인 후속 작업입니다. 또한 MMSI-Bench는 다중 이미지 간 공간적 추론 능력을 측정하는 벤치마크로 ICLR 2026에 채택되었습니다.

여담

단 하오둥의 개인 홈페이지 아이디는 kennymckormick으로, 미국 드라마 사우스 파크의 캐릭터 Kenny McCormick에서 가져온 것입니다. 연구 페이지의 유머러스한 자기 소개 방식이 다른 연구자들 사이에서도 기억에 남는 편입니다.

VLMEvalKit에 MMSI-Bench가 2025년 6월 통합된 것처럼, 그가 주도하는 벤치마크들은 발표 이후에도 툴킷에 지속적으로 편입되어 유지 관리됩니다. 이는 단 하오둥이 단순히 논문을 쓰고 끝내는 것이 아니라 평가 생태계를 장기적으로 관리하는 역할을 자처하고 있음을 보여 줍니다.

주요 논문

MMBench: Is Your Multi-modal Model an All-around Player? (ECCV 2024 Oral)
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models (ACM MM 2024)
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence (ICLR 2026)
RNG-Bench: Evaluating Rich-text-to-iNfographic Generation with a Comprehensive Benchmark
Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games