천민훙
개요
천민훙(Min-Hung Chen)은 NVIDIA Research Taiwan의 Staff Research Scientist로, Vision+X 멀티모달 AI를 전문 분야로 합니다. 2026년 3월 현재 직급인 Staff Research Scientist로 승진했으며, NVIDIA Research Taiwan의 공간 지능 및 멀티모달 연구 방향을 실질적으로 이끌고 있습니다.
주요 연구 관심사는 Vision-Language 모델, 4D(영상+깊이) 이해, 효율적 딥러닝, VLA(Vision-Language-Action), 트랜스포머입니다. 완전 지도 학습에 의존하지 않는 도메인 적응, 전이 학습, 지속 학습, 다양한 형태의 약지도 학습 등에도 폭넓게 관여합니다.
CVPR, NeurIPS, ICRA 등 최상위 컴퓨터비전·로보틱스 학회에 꾸준히 논문을 발표하고 있으며, ECCV 2026 에어리어 체어, CVPR 2026 워크숍 조직위원, ICML 2026 에어리어 체어를 맡고 있습니다.
생애
천민훙은 미국 조지아 공과대학교에서 Ghassan AlRegib 교수와 즈솔트 키라 교수의 공동 지도 아래 박사학위를 취득했습니다. 두 지도교수 모두 컴퓨터비전과 멀티모달 학습 분야의 주요 연구자로, 이 사사 관계가 이후 천민훙의 연구 방향 전반에 영향을 미쳤습니다.
박사 졸업 후 Microsoft Azure AI에서 근무하며 대규모 AI 서비스 환경에서의 연구 경험을 쌓았습니다. 이후 MediaTek AI로 이직해 온디바이스 AI와 효율적 딥러닝 분야에도 발을 넓혔습니다.
NVIDIA Research Taiwan에 합류한 이후에는 비전-언어 모델의 공간 이해, 4D 인식, 자율주행 협력 시스템 등 다양한 방향으로 연구를 확장해 왔으며, 2026년 초 Staff Research Scientist로 승진했습니다.
업적
천민훙의 최근 가장 주목받는 성과는 SpatialClaw 프레임워크입니다. 영구 파이썬 커널을 행동 인터페이스로 사용하는 학습 불필요(training-free) 공간 추론 프레임워크로, LLM이 VLM 기반 에이전트들을 계획-코드실행-피드백 루프로 조율해 복잡한 3D/4D 공간 추론 과제를 수행합니다. 이전의 구조화된 도구 호출 방식의 한계를 코드 기반 인터페이스로 전환해 해결한 것이 핵심입니다.
ThinkAct(NeurIPS 2025)는 고수준 추론과 저수준 행동 실행을 연결하는 이중 시스템 VLA 프레임워크입니다. 강화된 시각 잠재 계획(reinforced visual latent planning)을 통해 추론-행동 간 간극을 좁히는 방향을 제안했습니다.
V2V-LLM(CVPR 2026 채택)과 V2V-GoT는 다중 자율주행 차량 간 협력 인식을 멀티모달 LLM으로 통합하는 연구입니다. V2V-QA라는 Vehicle-to-Vehicle 질의응답 데이터셋과 벤치마크도 함께 제안했습니다. 4D-RGPT(CVPR 2026 채택) 역시 영상과 깊이 데이터를 결합한 4D 이해를 다룬 연구입니다.
학회 서비스 측면에서는 ECCV 2026과 ICML 2026의 에어리어 체어, CVPR 2026 T4V 워크숍 조직위원으로 활동하는 등 학술 커뮤니티 운영에도 적극적으로 참여하고 있습니다.
여담
산업 연구소(NVIDIA)와 대학 연구의 스펙트럼을 모두 경험한 이력이 특징입니다. Microsoft Azure AI와 MediaTek AI를 거쳐 NVIDIA에 정착한 경로는, 대규모 서비스형 AI와 엣지 디바이스 AI, 그리고 연구 중심 환경을 모두 경험한 드문 이력입니다.
NVIDIA Research Taiwan은 본사(미국 산타클라라)와는 별도로 아시아-태평양 지역의 연구 거점 역할을 합니다. 천민훙은 이 연구소에서 공간 지능 관련 연구의 핵심 축을 담당하고 있으며, 이 그룹에서 나온 논문들이 CVPR, NeurIPS, ICRA 등 최상위 학회에 꾸준히 게재되고 있습니다.
조지아공대 박사 시절 공동 지도교수였던 즈솔트 키라는 현재 삼성 리서치에 있으며, 당시 형성된 연구 네트워크가 지금도 협력의 바탕이 되는 것으로 보입니다.
주요 논문
- "ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning" (NeurIPS, 2025)
- "BlurDM" (NeurIPS, 2025)
- "V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models" (CVPR, 2026)
- "V2V-GoT" (ICRA, 2026)
- "4D-RGPT" (CVPR, 2026)
- "Fast-ThinkAct" (CVPR, 2026)
- SpatialClaw -- 공간 추론용 코드 기반 행동 인터페이스 프레임워크, 시니어 저자
- SpatialClaw - Rethinking Action Interface for Agentic Spatial Reasoning -- 시니어 저자 및 교신 저자
- "Efficient Domain Adaptation with Continual Learning" (조지아공대 박사 시절 연구)
- SpaceTools(SpaceTools-Toolshed, 2026) -- SpatialClaw 이전 구조화 도구 호출 기반 연구