레이자첸

개요

Jiachen Lei(雷嘉晨)는 알리바바 AutoNavi(高德地图) 산하 AMAP-ML 연구소 소속 연구원입니다. 비디오 생성 아키텍처와 인터랙티브 월드 모델 두 방향을 함께 연구하며, 2025~2026년에 걸쳐 두 편의 주목할 만한 작업을 발표했습니다.

"There is No VAE"(ICLR 2026)는 잠재 확산 모델의 핵심 구성 요소인 VAE 인코더를 완전히 제거하고 픽셀 공간에서 직접 생성 모델을 학습하는 방법론으로, ImageNet에서 최고 수준의 FID를 달성했습니다. DreamX-World 1.0(2026)은 텍스트·이미지 입력에서 자유로운 카메라 이동과 장기 생성이 가능한 범용 인터랙티브 월드 모델입니다. 추샹샹, 주자슈와 함께 AMAP-ML의 인터랙티브 월드 모델 라인을 이끌고 있습니다.

X(Twitter)에서 @JiachenLei 계정을 통해 연구 결과를 직접 공유하며, 오픈소스 공개에도 적극적입니다. AMAP-ML 깃허브(github.com/AMAP-ML)에 주요 코드와 데이터를 공개하고 있습니다.

생애

공개된 학력 정보는 제한적이나, 알리바바 AMAP-ML에서 컴퓨터 비전과 생성 모델 연구를 이어온 것으로 확인됩니다. Caltech(California Institute of Technology)과의 협력 연구도 병행하며, Julius Berner 등 Caltech 연구자들과 "There is No VAE" 논문을 공동 작성했습니다.

2025년 arXiv:2510.12586로 "There is No VAE" 초안을 공개했고, 이 논문이 ICLR 2026에 채택되며 주목을 받았습니다. 같은 시기 Omni-WorldBench 공동 작업으로 월드 모델 평가 인프라 구축에도 참여했습니다.

2026년 6월 DreamX-World 1.0 논문(arXiv:2606.16993)과 코드를 동시에 공개하며, 인터랙티브 월드 모델의 범용화 방향을 구체적인 시스템으로 제시했습니다.

업적

"There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-Training"(ICLR 2026, arXiv:2510.12586)은 잠재 확산 모델(latent diffusion model)에서 당연시되던 VAE 인코더를 제거한 픽셀 공간 생성 모델입니다. 2단계 학습 프레임워크를 통해 이 격차를 해소합니다. 1단계에서는 클린 이미지로부터 의미론적 표현을 포착하도록 인코더를 사전학습하고, 2단계에서는 인코더와 무작위 초기화 디코더를 통합해 확산·일관성 모델 양쪽 목표로 end-to-end 파인튜닝합니다. ImageNet-256에서 FID 1.58, ImageNet-512에서 FID 2.35를 75 NFE(function evaluations)로 달성해 당시 최고 수준의 픽셀 공간 생성 성능을 기록했습니다.

Omni-WorldBench는 상호작용 중심 4D 월드 모델 평가 벤치마크 구축 작업으로, 공동 저자로 참여했습니다. 인터랙션 품질과 시간적 일관성을 4차원으로 평가하는 프레임워크를 제안하며 월드 모델 연구의 표준 평가 도구를 만드는 데 기여했습니다.

DreamX-World 1.0 - A General-Purpose Interactive World Model(arXiv:2606.16993)은 Wan2.2-T2V-5B(약 50억 파라미터) 기반의 범용 인터랙티브 월드 모델입니다. WASD 방식 6DoF 카메라 제어, 실내·도심·자연·SF·게임 스타일 등 다양한 씬, 720P 해상도에서 최대 7.5초 생성, 이전 관찰 영역 재방문(revisit) 지원 등을 갖췄습니다. DreamX Team의 핵심 기여자로 카메라 제어, 장기 생성, 메모리 일관성 파이프라인 전반을 담당했습니다.

여담

"There is No VAE"라는 논문 제목은 도발적입니다. 잠재 확산 모델 진영 전체에 "VAE가 없어도 된다"고 선언하는 것으로, 실제로 ImageNet FID 1.58이라는 수치로 주장을 뒷받침했습니다. 픽셀 공간 생성 모델이 잠재 공간 모델에 비해 항상 열등하다는 통념에 반기를 든 결과입니다.

알리바바 AMAP-ML이라는 소속도 흥미롭습니다. AutoNavi는 지도·내비게이션 서비스가 주력인 사업체인데, 그 산하 연구소에서 생성 모델과 월드 모델 연구가 나오고 있다는 것은 지도·자율주행 응용을 염두에 둔 투자로 읽힙니다. DreamX-World의 6DoF 카메라 제어와 도심 씬 생성 역량이 자율주행 시뮬레이션과 연결될 수 있는 방향입니다.

Caltech와의 공동 연구, 오픈소스 공개, 활발한 소셜 미디어 활동은 기업 연구소 안에서도 학술 커뮤니티와의 접점을 유지하는 스타일을 보여줍니다.

주요 논문

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-Training (ICLR 2026, arXiv:2510.12586)
DreamX-World 1.0 - A General-Purpose Interactive World Model (arXiv:2606.16993, 2026)
Omni-WorldBench: Benchmarking Interactive 4D World Models (공동 저자)