Xinggang Wang

개요

왕 싱강(Wang Xinggang, 王兴刚)은 화중과학기술대학교(HUST) 전자정보통신학부 교수이자 HUST Vision Lab의 디렉터입니다. 객체 검출, 시각적 표현 학습, 자율주행을 위한 HD 맵 생성, 생성 모델 등 컴퓨터비전 전반을 연구합니다. CVPR, NeurIPS, ICML, ICCV, ECCV, IEEE TPAMI 등 최상위 학술대회 및 저널에 100편 이상의 논문을 발표했으며, Google Scholar 피인용 수는 4만 건을 넘어섭니다.

Vision Lab은 왕 싱강 교수 지도 아래 40명 이상의 박사과정·석사과정 학생이 재적하는 규모 있는 연구 그룹입니다. ByteTrack, Vision Mamba, 4D Gaussian Splatting, YOLO-World, LightningDiT 등 여러 분야에서 주목받는 연구들이 이 그룹에서 나왔습니다. 2026년에는 CVPR Area Chair를 맡아 학술 커뮤니티 운영에도 기여하고 있습니다.

생애

왕 싱강은 화중과학기술대학교에서 학사 및 박사 학위를 모두 취득하며 HUST와 긴 인연을 맺었습니다. 졸업 후 곧바로 모교에 교수로 부임했으며, 이후 HUST Vision Lab을 창설해 현재까지 이끌고 있습니다. 중국 AI 연구 생태계 안에서 중부 지역(후베이성 우한 소재)을 거점으로 활발하게 활동하는 연구자입니다.

그의 연구 방향은 기초 컴퓨터비전에서 출발해 자율주행, 의료 영상, 생성 모델까지 폭넓게 이어집니다. MapTR은 자율주행 HD 맵 벡터화 연구로 산업 응용에 가깝고, 4DGS(4D Gaussian Splatting)는 CVPR 2024에서 2,719편 중 3위 논문으로 선정될 만큼 학술적으로도 높은 평가를 받았습니다.

업적

왕 싱강의 연구 중 학계에 가장 넓게 인용된 것은 다중 객체 추적 분야의 ByteTrack입니다. 모든 감지 결과를 활용해 연관성을 부여하는 단순하면서도 효과적인 접근으로 ECCV 2022에서 발표되었으며, 이후 동영상 분석 파이프라인의 표준 트래커로 자리 잡았습니다. 비슷한 시기에 발표된 FairMOT도 단일 네트워크에서 검출과 재식별을 동시에 수행하는 방법으로 주목받았습니다.

Vision Mamba(Vim)는 순수 상태 공간 모델(SSM) 기반의 비전 백본 연구로, ICML 2024에서 2,609편 중 2위에 선정될 만큼 반향이 컸습니다. YOLO-World는 개방형 어휘 실시간 객체 검출 연구이며, LightningDiT는 확산 트랜스포머의 학습 효율을 대폭 개선하는 연구입니다. 최근에는 Ziyang Xu, Kangsheng Duan 등 지도 학생들의 이미지 인페인팅 연구(PixelHacker, Moebius)에서 교신저자로 기여하고 있습니다.

여담

왕 싱강은 SNS 활동에도 비교적 적극적인 편으로, X(구 트위터)에서 연구 결과와 오픈소스 코드를 정기적으로 공유합니다. 이런 커뮤니케이션 방식이 Vision Lab 연구들이 arXiv 공개와 동시에 커뮤니티 주목을 받는 데 기여합니다.

그의 연구 목록을 보면 특정 주제에만 깊이 파고드는 스타일보다는 유망한 방향이 보이면 빠르게 탐색하는 브로드 스캐닝 방식에 가깝습니다. 4DGS, Vision Mamba, YOLO-World, LightningDiT가 모두 서로 다른 분야이면서 동시에 각 분야 최상위권을 기록한 것은 이런 연구 스타일의 결과입니다.

주요 논문

ByteTrack: Multi-Object Tracking by Associating Every Detection Box (ECCV 2022)
FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking
MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction (ICLR 2023)
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model (ICML 2024 2위)
4D Gaussian Splatting for Real-Time Dynamic Scene Rendering (CVPR 2024 3위)
YOLO-World: Real-Time Open-Vocabulary Object Detection
LightningDiT: A Versatile Diffusion Transformer Toolkit for Efficient and High-Quality Image Generation
VA-VAE: Vision Aligned Variational Autoencoder
PixelHacker: Image Inpainting with Structural and Semantic Consistency (지도)
Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance (지도)