장전위

🏷️ 영상처리 확산모델

개요

장전위(張振宇, Zhenyu Zhang)는 Baidu ERNIE Team 소속 연구자로, 대규모 멀티모달 생성 모델과 비디오 생성 시스템을 전문으로 연구합니다. ERNIE 플랫폼의 영상 생성 인프라 설계와 장기 비디오 일관성 문제 해결에 집중하고 있으며, 산업 규모의 모델 훈련 경험을 바탕으로 연구와 제품 개발을 함께 이어가고 있습니다.

Baidu의 생성 AI 연구 라인 안에서 비디오 생성 분야를 담당하는 핵심 연구자로 자리 잡고 있습니다. 장기 영상에서 피사체의 외형과 장면 흐름이 끊기는 문제를 구조적으로 해결하는 방향에 지속적으로 관심을 두고 있습니다.

개인 홈페이지(zhenyu.ac.cn)를 운영하며 연구 성과를 공개하고 있습니다.

생애

세부적인 학력 정보는 공개되어 있지 않으나, Baidu ERNIE Team에 합류하기 전부터 대형 언어 모델 및 멀티모달 시스템 관련 연구 경력을 쌓은 것으로 알려져 있습니다. ERNIE 팀에서는 비디오 생성 기술의 연구 개발을 주도하는 역할을 맡고 있습니다.

2025년에는 ACL 2025에 효율적 대형 언어 모델 및 파라미터 효율 파인튜닝 관련 논문 4편이 채택되었으며, ICML 2025에도 관련 연구가 발표되었습니다. CVPR 2025에는 멀티모달 대형 언어 모델 관련 논문이 채택되었고, KDD 2025에는 텍스트-비디오 검색 논문이 발표되었습니다.

2026년에는 CVPR 2026에 동적 시각 토큰 해상도를 다루는 Blink 연구가 채택되었으며, Baidu의 ERNIE 5.0 기술 보고서에도 참여했습니다. 이 시기 비디오 생성 분야에서의 기여가 두드러집니다.

업적

장전위의 가장 주목할 만한 연구는 2026년 발표한 Memento(arXiv:2606.14667)에서의 Project Lead 역할입니다. Memento는 샷 단위 자기회귀 생성과 메모리 기반 피사체 재구성을 결합한 프레임워크로, 장기 비디오 생성에서 빈번히 발생하는 피사체 일관성 붕괴 문제를 체계적으로 다룹니다.

이 연구에서 장전위는 Wan2.2 14B 모델을 기반으로 한 훈련 설계를 주도하고, 샷 전환 시 피사체를 재구성하는 메모리 메커니즘의 전반적인 방향을 결정했습니다. 웨이쉬안, 홍칭치와 함께 핵심 기여자로 참여하며 ERNIE 팀의 비디오 생성 역량을 외부에 알렸습니다.

Baidu ERNIE 4.5 및 ERNIE 5.0 기술 보고서에도 기여했습니다. ERNIE 5.0은 Native Full-modality Unified Modeling 기술을 채택해 텍스트, 이미지, 음성, 비디오를 통합적으로 처리하는 멀티모달 구조를 갖추고 있으며, 장전위는 이 흐름 안에서 비디오 모달리티 부분에 기여했습니다.

여담

장전위는 개인 학술 홈페이지를 통해 연구 상황을 꾸준히 업데이트하고 있습니다. ERNIE 팀 내에서 장기 영상 생성이라는 비교적 도전적인 세부 과제에 집중하는 연구자로, 비디오 일관성을 "재구성을 통한 기억(Reconstruct to Remember)"이라는 개념으로 풀어낸 Memento의 제목 자체가 그의 연구 철학을 잘 드러냅니다.

Memento라는 이름은 크리스토퍼 놀란 감독의 2000년 영화 '메멘토'에서 착안한 것으로 보입니다. 기억 상실을 다룬 영화처럼, 장기 영상 생성 모델도 이전 프레임을 기억하지 못해 일관성이 깨진다는 문제의식이 연구 명칭에 반영되어 있습니다.

주요 논문