류스페이

개요

류스페이(Sifei Liu)는 NVIDIA Research Santa Clara 소속 수석 연구 과학자(Principal Research Scientist)이자 테크 리드입니다. 공간 전파 네트워크(Spatial Propagation Networks, SPN) 연구로 학계의 주목을 받았으며, 현재는 체화 기반 모델(embodied foundation model), 효율적인 트랜스포머 아키텍처, 3D 공간 추론 분야를 중점 연구합니다.

NVIDIA Research 내 LPR(Learning and Perception Research), AMRI(AI-Mediated Reality and Interaction), GenAIR(Fundamental Generative AI Research) 등 여러 연구 그룹에 동시 소속되어 있습니다. NVIDIA Pioneering Research Award를 수상했으며, 2019년 EECS Rising Stars로 선정된 바 있습니다.

2025년 GTC에서는 SpatialRGPT가 물리적 작업을 위한 에이전트 AI 시연 중 하나로 소개되었으며, Cosmos 3가 물리 AI 리더보드 7개 부문 1위를 달성하는 성과에 연구 팀 구성원으로 참여하고 있습니다. ICLR 2026에도 논문이 게재되는 등 연구 활동이 활발히 이어지고 있습니다.

생애

중국 북화전력대학교(North China Electric Power University)에서 제어과학 학사를 취득했습니다. 이후 중국과학기술대학교(USTC)에서 스탠 Z. 리(Stan Z. Li)와 빈 리(Bin Li) 교수 지도 아래 전기공학 석사 학위를 받았습니다.

박사 과정은 미국 UC 머세드(UC Merced) EECS 학과에서 밍수안 양(Ming-Hsuan Yang) 교수의 지도 아래 수행했으며 2017년 박사 학위를 취득했습니다. 박사 재학 중 NVIDIA와 협력 연구를 시작했고, 졸업 후 NVIDIA Research에 정식으로 합류해 현재까지 9년 이상 재직 중입니다.

박사과정 시절부터 Baidu Graduate Fellowship을 받으며 주목받았으며, 졸업 후에는 NVIDIA Pioneering Research Award를 수상했습니다. 2019년에는 EECS Rising Stars에 선정되며 차세대 컴퓨터 비전 연구자로 인정받았습니다.

업적

류스페이의 핵심 기여는 공간 전파 네트워크(SPN)입니다. SPN은 선형 확산 과정을 모방하는 미분가능 빌딩 블록으로, 색상, 깊이, 의미 지도 전파를 데이터 기반으로 학습합니다. 규칙 구조와 비규칙 구조 데이터 모두에서 공간, 시간, 3D 도메인에 걸쳐 범용적으로 활용될 수 있다는 점이 특징입니다. 이 연구는 NeurIPS 2017에 발표되었으며 이후 CVPR 2025의 GSPN(Generalized Spatial Propagation Network)으로 발전했습니다.

생성형 AI 분야에서는 텍스트, 이미지 안내로 4D 장면을 생성하는 Dream-in-4D 연구가 CVPR 2024에서 발표되었습니다. LivingWorld는 환경 역학을 포함한 인터랙티브 4D 세계 생성을 다루며 2026년에 공개되었습니다. 공간 추론 분야에서는 SpatialRGPT, GR3D 등 Vision-Language 모델의 3D 공간 이해 능력을 높이는 연구를 이어가고 있으며, 4D-RGPT를 통해 지역 수준의 4D 이해 능력도 탐구하고 있습니다.

NaVILA는 자연어 지시에 따라 3D 환경을 탐색하는 내비게이션 에이전트 연구로, 체화 AI와 언어 모델의 통합을 다루는 대표 성과입니다. MAVEN(CVPR 2026 워크숍), GR3D(CVPR 2026) 등 2025년과 2026년에도 활발하게 논문을 발표하며 비전-언어 모델과 체화 AI의 접점을 넓히고 있습니다.

여담

류스페이는 중국에서 학부와 석사를 마친 뒤 미국으로 건너가 박사 과정을 밟고, 졸업 이후 NVIDIA라는 단일 회사에서 9년 이상 연구 커리어를 이어오고 있습니다. 산업 연구소에서 이렇게 긴 기간을 보내면서도 CVPR, ECCV 등 최상위 학술 대회에 꾸준히 논문을 발표한다는 점이 독특합니다.

여러 NVIDIA Research 그룹에 동시 소속되어 있다는 것은 그가 인식(perception), 인터랙션(interaction), 생성(generation)이라는 서로 다른 연구 방향을 하나의 시스템 안에서 연결하는 역할을 맡고 있음을 시사합니다. Cosmos 등 NVIDIA의 물리 AI 플랫폼과의 연계도 이 연구 방향의 연장선으로 읽힙니다.

UC 머세드는 UC 계열 중 규모가 작은 신생 캠퍼스이지만, 컴퓨터 비전 분야에서 Ming-Hsuan Yang의 그룹은 세계적으로 인정받는 연구실입니다. 이 배경이 류스페이의 학문적 출발점을 만들었습니다. 이미지, 비디오, 4D 공간을 하나의 모델로 통합하는 방향이 연구 커리어 전반을 관통하는 키워드입니다.

주요 논문

Learning Affinity via Spatial Propagation Networks (NeurIPS 2017)
Self-Supervised Depth Completion Guided by 3D Perception and Geometry Consistency (2023)
SpatialRGPT: Grounded Spatial Reasoning in Vision-Language Models (2024)
BlobGEN-3D: Compositional 3D Scene Generation using Blob Representations (2024)
DynamicCity: Large-Scale 4D Occupancy Generation from Dynamic Scenes (2024)
Scaling Vision Pre-Training to 4K Resolution (2024)
Dream-in-4D: A Unified Approach for Text- and Image-guided 4D Scene Generation (CVPR 2024)
Parallel Sequence Modeling via Generalized Spatial Propagation Network (CVPR 2025)
LivingWorld: Interactive 4D World Generation with Environmental Dynamics (2026)
SpatialClaw - Rethinking Action Interface for Agentic Spatial Reasoning