왕리민

개요

왕리민(Limin Wang, 王立民)은 난징대학교(Nanjing University) 컴퓨터과학기술과 교수이자 신소프트웨어기술 국가중점실험실 소속 연구자입니다. 비디오 이해와 행동 인식 분야를 대표하는 인물로, TSN(Temporal Segment Networks)부터 VideoMAE, InternVideo 시리즈까지 분야의 핵심 연구들을 주도했습니다. 딥러닝 기반 비디오 분석 경력이 10년을 넘었으며, 2025년에는 앤트 인테크(Ant Intech) 기술상을 수상했습니다.

ICLR 2026에서 8편의 논문이 Accept됐고, InternVideo2는 60개 이상의 비디오 이해 태스크에서 최고 성능을 달성하는 등 왕리민 그룹의 연구 생산성은 2025~2026년에도 높게 유지되고 있습니다. HYDRA-X - Native Unified Multimodal Models with Holistic Visual Tokenizers(arXiv:2606.13289, 2026)에서는 교신저자로 네이티브 통합 멀티모달 모델 연구를 이끌었습니다.

생애

왕리민은 2011년 난징대학교에서 학사학위를 받은 뒤, 홍콩중문대학교(CUHK)에서 탕샤오어우(Xiaoou Tang) 교수의 지도 아래 박사학위를 받았습니다(2015). 탕샤오어우는 컴퓨터비전 분야의 거장으로, 그의 지도 아래서 왕리민은 비디오 분석의 시간 구조를 다루는 방법론을 개발했습니다.

박사 후에는 ETH 취리히 컴퓨터비전 연구소에서 뤽 반 구올(Luc Van Gool) 교수 그룹의 박사후 연구원으로 3년을 보냈습니다(2015-2018). 뤽 반 구올은 유럽 컴퓨터비전의 거두로, 이 시기에 왕리민은 TSN 연구를 TPAMI 저널로 확장하고 효율적인 비디오 인식 프레임워크 연구를 이어갔습니다.

2018년 귀국해 난징대학교 컴퓨터학과에 교수로 부임했습니다. 이후 행동 인식, 시계열 행동 탐지, 비디오 파운데이션 모델로 연구 범위를 지속적으로 확장하며 중국 컴퓨터비전 연구의 핵심 인물로 자리잡았습니다.

업적

왕리민의 가장 큰 기여는 비디오 행동 인식의 두 가지 고질적 문제를 해결한 일련의 연구입니다. 하나는 장거리 시간 구조 모델링이고, 다른 하나는 자기지도 학습 기반의 효율적 비디오 표현 학습입니다.

TSN(Temporal Segment Networks, ECCV 2016)은 비디오를 세그먼트로 나눠 샘플링하고 집계하는 방식으로 장거리 시간 의존성을 효율적으로 모델링했습니다. 발표 당시 Kinetics 등 주요 벤치마크에서 최고 성능을 기록했고, TPAMI 2018 확장판까지 합치면 비디오 인식 분야에서 가장 많이 인용되는 논문 중 하나가 됐습니다.

VideoMAE(NeurIPS 2022)는 마스크드 오토인코더를 비디오 도메인에 적용한 자기지도 사전학습 방법입니다. 극단적으로 높은 마스킹 비율(90~95%)에서도 유의미한 표현을 학습한다는 결과를 보여주며, 비디오 SSL의 패러다임을 바꿨습니다. VideoMAE V2(CVPR 2023)에서는 듀얼 마스킹으로 스케일링 효율성을 추가로 높였습니다.

InternVideo2(ECCV 2024)는 멀티모달 비디오 이해의 파운데이션 모델로, 60개 이상의 비디오 이해 태스크에서 최고 성능을 달성하며 허깅페이스에서 500만 건 이상 다운로드됐습니다. 2025년 앤트 인테크 기술상은 이 InternVideo 시리즈의 범용 비디오 이해 기여를 인정한 것입니다.

HYDRA-X - Native Unified Multimodal Models with Holistic Visual Tokenizers(2026)에서는 교신저자로 전체 연구 방향을 이끌었습니다. 단일 시각 토크나이저(HYDRA-XTok)와 잠재 공간 편집 메커니즘(STI)으로 이미지·비디오 이해·생성·편집을 통합하는 네이티브 멀티모달 모델을 완성했습니다.

여담

왕리민의 연구 그룹은 규모 면에서도 주목받습니다. InternVideo2에 참여한 연구자만 수십 명에 달하고, ICLR 2026에서 8편이 Accept된 것은 단일 그룹으로서 이례적인 성과입니다. 이는 상하이 인공지능연구소(SHAI), OpenGVLab 등 중국 AI 생태계와의 폭넓은 협력 덕분이기도 합니다.

TSN 논문의 공개 코드는 GitHub에서 10년 가까이 널리 사용되고 있으며, 후속 연구들이 TSN을 기준선으로 삼는 전통이 이어지고 있습니다. 왕리민이 직접 공개한 모델과 코드베이스가 커뮤니티에 미친 영향은 논문 인용 수만큼이나 큽니다.

비디오에서 행동을 인식하는 문제는 자율주행, 스포츠 분석, 의료 영상, 산업 안전 등 다양한 응용 분야와 맞닿아 있어, 왕리민의 연구는 학술적 가치를 넘어 현실적 파급력도 높다는 평가를 받습니다.

주요 논문

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition (ECCV 2016)
Temporal Segment Networks for Action Recognition in Videos (TPAMI 2018)
Temporal Relation Network (TRN) (ECCV 2018)
Temporal Difference Networks (TDN) for Action Recognition (CVPR 2021)
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training (NeurIPS 2022)
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking (CVPR 2023)
InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding (ECCV 2024)
OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection (arXiv 2025)
HYDRA-X - Native Unified Multimodal Models with Holistic Visual Tokenizers (arXiv:2606.13289, 2026)