World Action Models - The Next Frontier in Embodied AI

🏷️ 논문 딥러닝 머신러닝

S. Wang, J. Shi, Z. Fu, X. He, F. Liu, C. Yang, Y. Zhou, Z. Fei, J. Gong, J. Fu, M. Z. Shou, X. Huang, X. Qiu, Y.-G. Jiang, "World Action Models: The Next Frontier in Embodied AI," arXiv:2605.12090, 2026.

RT-2가 등장한 뒤로 임바디드 정책 학습은 Vision-Language-Action 모델이라는 한 단어로 압축되어 왔습니다. VLM 백본 위에 action token을 얹어서 관측 → 행동 매핑을 학습하는 방식인데, 사전학습된 의미 정보를 모터 제어로 그대로 끌어 쓸 수 있다는 점에서 이전 task-specific controller와는 분명히 다른 자리에 있습니다. 그런데 이 흐름이 정점을 찍을 즈음 세계가 어떻게 변할지를 모델이 예측하지 않는다는 한계가 점점 부각되기 시작했습니다.

World Model 쪽 흐름은 거의 같은 시기에 별도로 굴러갔습니다. Dreamer 계열의 latent dynamics 모델, Yann LeCun이 밀던 JEPA 계열의 예측적 표현 학습, Sora·Veo·Wan 같은 비디오 생성 기반 world model이 각각 세계의 dynamics를 모델링한다는 같은 목표를 다른 방식으로 풀어왔습니다. 이 두 흐름이 작년 한 해를 거치면서 한 모델 안으로 합쳐지기 시작했고, 그 합쳐진 모델을 부르는 이름이 논문마다 달랐습니다. UniPi, VPP, GR-2, FLARE, VLA-JEPA, Cosmos Policy, DreamZero, X-WAM — 모두 본질은 비슷한데 명명만 다른 상황입니다.

Fudan University의 신뢰성 임바디드 AI 연구소(Institute of Trustworthy Embodied AI)는 이 합류 지점을 *World Action Models(WAMs)*로 묶고 첫 서베이를 내놓았습니다. 단순히 "이런 모델들이 있다"가 아니라 VLA·VAM·Video Policy·AWM과 어떻게 다른가를 정의 단에서 정리하고, Cascaded와 Joint라는 두 축으로 아키텍처 공간을 나누고, 데이터 생태계 네 갈래와 평가 프로토콜 세 갈래를 정리한 뒤 미해결 과제를 던지는 구성입니다.

저자

1저자 Siyin Wang과 책임저자 Yu-Gang Jiang을 포함해 14명이 이름을 올렸습니다. 대부분 Fudan University 신뢰성 임바디드 AI 연구소·Shanghai Innovation Institute 소속이고 NUS의 Mike Zheng Shou가 합류했습니다. project lead는 Zhaoye Fei입니다.

책임저자 Yu-Gang Jiang은 Fudan 컴퓨터과학과 교수이자 신뢰성 임바디드 AI 연구소를 이끄는 인물입니다. 원래는 비디오 분석·멀티모달 인식 쪽에서 오래 일해온 비전 연구자인데, 작년에 새로 출범한 임바디드 AI 연구소를 맡으면서 비디오 생성 모델의 dynamics를 정책 학습으로 연결하는 방향으로 그룹의 무게중심을 옮겨온 모양새입니다. 본 서베이의 시각 — 비디오 foundation 모델을 world model로 보고 그것을 정책에 통합한다 — 이 그 궤적과 자연스럽게 맞물립니다.

저자들이 OpenMOSS와 함께 GitHub에 Awesome-WAM 리포지토리를 열고 본 서베이를 공식 랜드스케이프 페이지로 운영한다고 밝힌 점도 흥미롭습니다. 명명을 정착시키려는 의도가 분명히 느껴집니다.

배경

본 서베이는 두 갈래를 먼저 분리해서 정리합니다. 한쪽은 VLA, 다른 한쪽은 World Model입니다.

VLA 계열은 RT-2(2023), OpenVLA(2024), π₀(2024)를 큰 마일스톤으로 잡습니다. 셋 다 o, l을 받아 a를 내는 조건부 확률 p(a | o, l) 학습이라는 점이 같습니다. 행동 생성 방식만 갈리는데, autoregressive tokenization 계열은 action을 discrete token으로 다루고, diffusion synthesis 계열은 VLM 백본에 generative action expert를 붙여 continuous multi-modal 분포를 다룹니다. 본 서베이의 진단은 VLA가 reactive observation-to-action 매핑에 갇혀 있다는 것입니다. 환경이 개입에 어떻게 반응할지를 모델이 명시적으로 그리지 않으니 generalization에 한계가 생기고, action annotation이 붙은 데이터에만 의존하니 학습 자원이 제한된다는 두 문제로 정리됩니다.

World Model 계열은 더 다양한 정의가 공존하던 영역입니다. 본 서베이는 환경의 forward dynamics를 모델링하는 함수 — p(o' | o, a) — 로 통일하고 세 갈래로 나눕니다.

이 두 갈래가 만나는 첫 시도가 VLA를 위한 World Model 사용입니다. Imitation learning에서는 Ctrl-World가 π₀.₅-DROID 정책의 downstream 성공률을 44.7% 끌어올리며 imagination에서의 fine-tuning이 실제로 효과적임을 보였습니다. RL 쪽에서는 Dreamer 계열을 surrogate environment로 쓰는 흐름, VIPER·Diffusion Reward·GenReward·SRPO처럼 video generation을 reward 신호로 쓰는 흐름이 같이 갔습니다. 평가 측면에서는 Ctrl-World·Veo Robotics·Interactive World Simulator처럼 world model을 시뮬레이터로 쓰는 흐름이 자리잡았습니다.

그러나 여기까지는 world model이 정책 바깥에 있는 도구로 쓰였습니다. WAM은 그 도구를 정책 으로 가져오는 단계의 모델들을 가리킵니다.

어떻게 정의했나

본 서베이의 WAM 정의는 두 조건으로 압축됩니다.

수식으로는 다음 joint(또는 조건부) 분포를 학습한다는 것입니다.

\[\mathcal{L}_{\text{WAM}} = \mathbb{E}_{(o, l, o', a) \sim \mathcal{D}} \left[ -\log p(o', a \mid o, l) \right]\]

VLA는 p(a | o, l)만 학습하고, World Model은 p(o' | o, a)만 학습하던 자리에 둘을 함께 학습하는 객체로 WAM이 들어가는 셈입니다.

비슷한 명명이 이미 있었습니다. *Action World Model(AWM)*은 같은 객체를 다른 위계로 부른 단어입니다. AWM은 "World Model"이 주어 자리에 있어서 행동으로 augment된 시뮬레이터라는 뉘앙스가 강하고, WAM은 "Action"과 "World"를 동격에 두어 에이전트가 본체라는 뉘앙스가 강합니다. 저자들은 이 차이를 VLA 계보의 직접 후계자임을 분명히 하려는 의도라고 명시합니다. 이 점은 Yann LeCun이 밀어온 world model 중심 에이전트 비전과 미묘하게 다릅니다. LeCun식 비전은 world model을 핵심으로 두고 정책을 그 위에서 planning으로 풀자는 입장에 가깝습니다. WAM은 world와 action을 동시에 학습 객체로 두는 합류점입니다. 명명이 정착할지는 별도로 봐야 할 부분입니다.

WAM과 인접 개념의 경계도 따로 정리됩니다. *Video Action Models(VAMs)*는 video 합성과 action 생성을 정렬하는 모델이라 WAM의 부분집합입니다. Video Policies는 video diffusion backbone을 정책으로 직접 쓰는 모델인데, world modeling objective로 명시적으로 supervise되어야 WAM이 됩니다. backbone의 implicit 정보만 활용하면 video policy로 분류됩니다.

무엇으로 구성돼 있나

서베이는 WAM을 두 paradigm으로 나눕니다.

Cascaded WAM은 *p(o', a | o, l) = p(a | o', o, l)·p(o' | o, l)*로 명시적으로 factorize합니다. world model이 먼저 미래를 합성하고, 그 미래를 보고 action model이 행동을 뽑는 구조입니다. 두 모델이 따로 학습됩니다.

Cascaded 안에서 다시 두 갈래로 나뉩니다.

Joint WAM은 *p(o', a | o, l)*을 단일 모델에서 직접 다룹니다. world prediction과 action generation이 같은 객체 안에서 공동 최적화됩니다.

Joint 안에서 다시 두 갈래입니다.

본 서베이가 강조하는 은 두 가지입니다. backbone scale은 0.5B(UVA)부터 14B(DreamZero)까지 한 자릿수 차이로 벌어지고, world representation은 RGB·RGB-D·latent·flow·tactile로 다양화되고 있다는 점입니다. 한 표(Table 3)에 들어가는 diffusion-based joint WAM만 21개입니다.

데이터

WAM 훈련 데이터는 네 갈래로 정리됩니다.

저자들이 그리는 그림(Figure 7)은 두 축 — Transfer Difficulty(로봇으로 옮기기 어려움)와 Scaling Difficulty(데이터 모으기 어려움) — 의 trade-off에 네 데이터 paradigm이 정확히 반대편에 놓인다는 것입니다. teleop은 transfer는 쉽고 scaling이 어렵고, ego는 scaling은 쉽고 transfer가 어려운 극단입니다. WAM의 강점은 unpaired data(action 없이 o, o'만 있는 데이터)도 joint training으로 흡수할 수 있다는 점에서 옵니다. PAD가 video co-training을 ablation으로 검증한 사례, DreamDojo의 44,000시간 crowdsourced 데이터가 그 가능성을 보여줍니다.

평가

본 서베이는 평가를 두 축으로 분리합니다.

World Modeling Capability는 다시 셋으로 나뉩니다.

Action Policy Capability는 다섯 갈래로 정리됩니다.

저자들의 진단은 분명합니다. visual metric은 physical correctness를 못 잡고, action success는 imagined future와의 alignment를 못 잡는다. 둘이 분리되어 leaderboard로 굴러가는 동안 causal consistency는 빠져 있다는 게 결정적 gap입니다. Counterfactual Consistency, Foresight-Conditioned Success 같은 coupled metric이 필요하다는 게 본 서베이의 제안입니다.

회고

저자들이 직접 짚는 open challenge가 일곱입니다.

휴머노이드·자율주행·게임 에이전트 같은 응용 도메인 관점에서 보면 다음이 직접 따라옵니다. 휴머노이드는 HumanoidBench·HumanoidGen·UnifoLM-WBT 라인이 full-body·tactile-rich 평가를 표준화하는 중이고, 본 서베이는 RDT2·EgoDex·HumanNet 같은 human ego 데이터가 휴머노이드 morphology에 가장 자연스럽게 정렬된다는 흐름을 짚습니다. 자율주행은 본 서베이가 직접 다루지 않지만, 같은 p(o', a | o, l) 객체가 driving scene으로 옮겨오면 GAIA·DriveDreamer 계열과 자연스럽게 연결됩니다. 게임 에이전트는 Genie 계열이 이미 보여준 latent action 추출 방식이 본 서베이의 Implicit Planning과 같은 구조라서 둘이 합쳐질 여지가 큽니다.

정리