장궈전
개요
장궈전(Zhang Guozhen)은 난징대학교(Nanjing University) 멀티미디어컴퓨팅그룹(MCG)에서 왕리민(Limin Wang) 교수의 지도 아래 컴퓨터비전과 멀티모달 생성을 연구하는 연구원입니다. Google Scholar 기준 피인용 168회로 초기 경력 단계에 있으나, CVPR와 ICLR 등 최상위 학회에 제1저자 및 공저자로 이름을 올리면서 빠르게 성과를 축적하고 있습니다.
주요 연구 주제는 영상 프레임 보간(video frame interpolation), 시각 토크나이저 설계, 통합 멀티모달 아키텍처입니다. 개별 모달리티에 특화된 모델이 아니라 이미지와 비디오를 단일 ViT 안에서 통합 처리하는 방향을 추구합니다.
2026년 발표한 HYDRA-X - Native Unified Multimodal Models with Holistic Visual Tokenizers(arXiv:2606.13289)에서 치우쉐루이(Xuerui Qiu), Yutao Cui와 함께 공동 제1저자로 참여했습니다. 이 논문은 난징대학교 대형모델연구협동혁신센터에서 2026년 성과로 소개되고 있습니다.
생애
장궈전의 세부 이력은 공개된 정보가 제한적입니다. 난징대학교 컴퓨터과학과 소속으로, 왕리민 교수가 이끄는 MCG(Multimedia Computing Group)에서 연구를 수행하고 있습니다. MCG는 영상 이해, 동작 인식, 생성 모델 등 다양한 분야에서 세계 수준의 성과를 내고 있는 그룹입니다.
영상 프레임 보간 연구로 학계에 등장한 것이 CVPR 2023 논문이며, 이후 CVPR 2024, ICLR 2026까지 꾸준히 최상위 학회에 성과를 발표했습니다. 연구 영역이 고전적인 영상 처리 태스크에서 대규모 통합 멀티모달 모델로 자연스럽게 확장된 궤적을 보입니다.
2026년 HYDRA-X 논문 발표를 통해 통합 멀티모달 분야에서도 존재감을 드러냈습니다. 14명의 공저자가 참여한 대형 협업 프로젝트에서 공동 제1저자 역할을 맡았다는 점이 주목됩니다.
업적
장궈전의 영상 프레임 보간 연구는 세 편의 주요 논문으로 정리됩니다. CVPR 2023의 "Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation"은 프레임 간 어텐션을 통해 모션과 외형 정보를 효율적으로 추출하는 방법을 제안했습니다. CVPR 2024의 "Sparse Global Matching for Video Frame Interpolation with Large Motion"은 큰 모션이 존재하는 상황에서의 보간 품질을 높이는 희소 전역 매칭 방법을 다뤘습니다. ICLR 2026에서 채택된 "Arbitrary Generative Video Interpolation"은 임의 타임스탬프와 임의 길이 보간을 지원하는 ArbInterp 프레임워크로, 생성 모델 기반 보간의 새로운 지평을 열었습니다.
HYDRA-X(arXiv:2606.13289)는 이미지와 비디오 토크나이제이션을 단일 ViT 안에서 통합한 최초의 통합 멀티모달 모델(UMM)입니다. 여기서 장궈전은 HYDRA-XTok 시각 토크나이저 설계와 통합 아키텍처 구현을 맡았습니다. 이 논문은 프레임 수준의 인과적 시간적 어텐션이 시각 재구성에 충분하며 완전한 시공간 어텐션이 오히려 성능을 저하시킨다는 흥미로운 발견을 포함하고 있습니다.
전임 버전인 HYDRA(arXiv:2603.15228)에도 참여하며 표현 조화 토크나이제이션(representation-harmonized tokenization)을 통한 멀티모달 생성-이해 통합 연구의 흐름을 주도하고 있습니다.
여담
왕리민 교수의 MCG 그룹은 영상 이해 분야에서 꾸준히 세계 수준 성과를 내온 팀으로, 장궈전은 이 그룹 안에서 프레임 보간이라는 구체적인 과제를 통해 연구 기반을 닦았습니다. 고전적인 영상 처리 문제에서 대규모 멀티모달 아키텍처 설계로 연구 방향을 확장한 궤적이 MCG의 전체 연구 방향과 일치합니다.
HYDRA-X 논문의 공저자 목록에는 Liefeng Bo, Miles Yang, Zhao Zhong 등 알리바바 다모원(DAMO Academy) 계열 연구자들이 포함되어 있어, 이 프로젝트가 산학 협력으로 진행된 것으로 보입니다. 초기 경력 단계에서 이런 규모의 협업에 제1저자로 참여한 것은 연구 역량을 인정받았음을 시사합니다.
주요 논문
- HYDRA-X - Native Unified Multimodal Models with Holistic Visual Tokenizers (arXiv:2606.13289, 2026) - 이미지·비디오 통합 시각 토크나이저를 갖춘 통합 멀티모달 모델, 공동 제1저자
- "HYDRA: Unifying Multi-modal Generation and Understanding via Representation-Harmonized Tokenization" (arXiv:2603.15228, 2026) - 표현 조화 토크나이제이션 기반 멀티모달 생성-이해 통합
- "Arbitrary Generative Video Interpolation" (ICLR 2026) - 임의 타임스탬프 지원 생성 기반 영상 보간
- "Sparse Global Matching for Video Frame Interpolation with Large Motion" (CVPR 2024) - 대모션 환경 영상 보간을 위한 희소 전역 매칭
- "Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation" (CVPR 2023) - 프레임 간 어텐션 기반 효율적 영상 보간
- "Perception-Oriented Video Frame Interpolation via Asymmetric Blending" (arXiv:2404.06692) - 지각 지향 비대칭 블렌딩 보간
- "UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions" (arXiv:2511.03334, 2025) - 오디오-비디오 통합 생성 프레임워크