Qwen-AgentWorld - Language World Models for General Agents

Qwen Team, "Qwen-AgentWorld: Language World Models for General Agents," arXiv:2606.24597, 2026.

저자

이 논문은 Jingren Zhou가 이끄는 Alibaba Cloud 통의(Tongyi) 연구소의 팀 저술입니다. Core contributor로 Yuxin Zuo, Zikai Xiao, Li Sheng 등 17명이 이름을 올렸고 Fei Huang과 Jianhong Tu가 Project Lead를, Jingren Zhou가 시니어 저자로 참여했습니다. Tsinghua 대학의 Ning Ding이 외부 자문을 맡았습니다.

이 팀은 Qwen3.5·Qwen3.6 시리즈를 낸 것과 같은 조직입니다. Qwen-AgentWorld는 기존 언어 모델 훈련의 연장선이 아니라, 에이전트 환경 시뮬레이션을 파운데이션 모델로 다룬다는 점에서 팀의 연구 방향을 새 전선에 올려놓는 작업입니다.

배경

에이전트-환경 루프에는 두 구성요소가 있습니다. 에이전트(정책)는 상태에서 행동을 결정하고, 세계 모델은 행동 결과로 다음 상태를 만들어냅니다. LLM 에이전트 연구는 지금까지 정책 쪽에 거의 집중했습니다. 세계 모델은 게임 AI(MuZero, DreamerV3 등)에서 이미 핵심 역할을 해왔지만, 언어 기반 에이전트 환경에서는 파운데이션 급의 시도가 없었습니다.

저자들은 두 가지 이유에서 언어 세계 모델이 지금 필요하다고 주장합니다. 첫째 확장성: 실제 환경(샌드박스, GUI 가상 머신)을 무한히 늘릴 수는 없지만, 시뮬레이터는 수천 개의 환경을 즉시 생성할 수 있습니다. 둘째 통제 가능성: 실제 환경이 드물게 만드는 극단적 조건(부분 실패, 중간 결과 차단, API 오류 주입)을 시뮬레이터로 정밀하게 주입해 에이전트의 약점을 체계적으로 노출할 수 있습니다. 저자들이 강조하는 핵심은 "실제 환경 대비 비용 절감"이 아니라, "실제 환경이 줄 수 없는 훈련 신호를 만드는 새 축"이라는 점입니다.

어떻게 만들었나

Qwen-AgentWorld는 "CPT injects, SFT activates, RL sharpens"라는 3단계 파이프라인으로 훈련됩니다.

1단계: Continual Pre-Training (CPT)

7개 도메인에서 수집한 환경 상호작용 궤적 10M개와 산업·법·의료·금융 등 전문 세계지식 코퍼스를 함께 사용합니다. 훈련 목적은 표준 다음-토큰 예측입니다. 다만 "boilerplate" 턴(API 에코, 단순 응답 반복 등)은 카테고리별 keep ratio로 손실 계산에서 제외하는 정보이론적 손실 마스킹을 적용합니다. 이 단계는 모델에 환경이 어떻게 반응하는지를 암묵적으로 주입합니다.

2단계: Supervised Fine-Tuning (SFT)

10,250개 후보 쿼리에서 품질 임계치를 넘는 7,094개(보유율 69.2%)를 선별해 명시적 추론 체인(thinking trace)을 학습합니다. 각 쿼리에 대해 3번의 rollout을 생성하고 독립 judge 모델이 품질 순위를 매겨 최상위 궤적만 남깁니다. 이 단계는 CPT에서 암묵적으로 습득한 세계 지식을 "행동 전 상태 예측"이라는 명시적 추론 패턴으로 활성화합니다.

3단계: Reinforcement Learning (RL)

GSPO 알고리즘으로 92,308개 RL 훈련 샘플(평균 13.4턴/샘플)을 사용합니다. 보상은 5차원 루브릭 LLM judge와 규칙 기반 검증기를 9:1 비율로 결합합니다. 5개 차원은 Format, Factuality, Consistency, Realism, Quality이며, 각 1-5점 척도로 총 보상 범위는 \([5, 25]\)입니다. 두 가지 훈련 안정화 기법이 핵심입니다.

Echo Trap 방지: multi-turn 확장 시 공통 prefix 공유로 보상이 붕괴하는 현상을 막기 위해 궤적당 턴 1개씩만 샘플링합니다.
Self-praise 방지: 모델이 judge 편향을 학습해 예측 내용이 아닌 칭찬 문구로 점수를 올리는 패턴을 차단하기 위해 thinking block을 judge에 노출하지 않습니다.

무엇으로 구성돼 있나

두 가지 크기로 공개됩니다.

모델	총 파라미터	활성 파라미터
Qwen-AgentWorld-35B-A3B	35B	~3B (MoE)
Qwen-AgentWorld-397B-A17B	397B	~17B (MoE)

각 모델은 7개 도메인을 단일 가중치로 커버합니다.

도메인	행동	관측	핵심 능력
MCP	JSON Tool Call	툴 응답	사실적 세계 지식
Search	Web Search / Web Extractor	대화 + 결과	사실적 세계 지식
SWE	Read / Edit / Bash	툴 출력, diff	코드 실행 추론
Terminal	Bash Commands / Keystrokes	터미널 출력	장기-context 인과 추론
Android	Touch / Swipe / Type	UI 뷰 계층	시각 상태 추론
Web	Click / Navigate	접근성 트리 + 브라우저 상태	시각 상태 추론
OS	Mouse / Keyboard	접근성 트리 + 앱 상태	시각 상태 추론

언어 세계 모델의 수식적 정의: 시스템 프롬프트 \(c\), 시점 \(t\)까지의 관측 이력 \(o_{\leq t}\), 에이전트 행동 \(a_{\leq t}\)를 조건으로 다음 관측을 예측합니다.

\[\hat{o}_{t+1} = f_\theta(c,\, o_{\leq t},\, a_{\leq t})\]

게임 AI의 세계 모델(MuZero 등)이 픽셀·잠재 벡터 공간에서 작동하는 것과 달리, 이 모델은 관측과 행동이 모두 텍스트(또는 텍스트로 인코딩된 UI 트리)인 언어 공간에서 작동합니다. 단일 언어 모델링 목적만으로 7개 이질적 도메인을 통합할 수 있다는 점이 이 접근의 핵심 가설입니다.

AgentWorldBench — 함께 공개한 평가 벤치마크입니다. 프런티어 모델 5종(Claude Opus 4.8, Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro)이 실제 환경에서 수행한 궤적을 기반으로 2,170개 평가 샘플을 구성했습니다. 훈련 데이터와 완전히 다른 소스에서 가져와 OOD 평가를 보장합니다.

결과

AgentWorldBench 기본 성능

모델	MCP	Search	Terminal	SWE	Android	Web	OS	평균
Claude Opus 4.8	54.93	35.14	59.18	64.10	61.50	54.66	66.62	56.59
Claude Opus 4.6	69.90	29.30	57.51	64.55	58.03	51.42	70.20	57.80
GPT-5.4	70.10	37.26	53.69	66.29	60.00	51.80	68.58	58.25
Gemini 3.1 Pro	59.07	30.21	52.47	59.07	61.40	52.83	66.92	54.57
Qwen3.5-35B-A3B (베이스)	57.87	25.98	46.13	47.58	53.18	47.10	56.27	47.73
Qwen-AgentWorld-35B-A3B	64.79	36.69	53.96	65.63	58.17	49.55	65.92	56.39
Qwen3.5-397B-A17B (베이스)	68.31	30.81	55.30	64.44	54.90	48.55	60.85	54.74
Qwen-AgentWorld-397B-A17B	68.24	37.82	57.73	68.49	60.20	50.98	67.89	58.71

세계 모델 훈련의 효과가 수치로 확인됩니다. 35B 스케일에서 베이스 대비 +8.66점(47.73 -> 56.39), 397B 스케일에서 +3.97점(54.74 -> 58.71)이며, 397B는 GPT-5.4(58.25)를 소폭 앞섭니다. Search(+7.01)와 SWE(+4.05) 도메인에서 이득이 두드러집니다. 반면 GUI 도메인(Android, Web, OS)에서는 Claude Opus 계열이 앞서는데, 멀티모달 사전훈련의 이점을 텍스트 전용 세계 모델이 완전히 따라잡지 못한 결과입니다.

환경 시뮬레이터로서의 이득

Qwen-AgentWorld를 독립 시뮬레이터로 써서 에이전트를 훈련(Sim RL)하면:

시뮬레이터	Claw-Eval	QwenClawBench
없음 (베이스)	65.4	47.9
Qwen3.6-Plus	66.7	47.8
Qwen-AgentWorld-397B-A17B	69.7	55.0

단순 Sim RL(비통제)보다 통제 가능한 Sim RL이 훨씬 효과적입니다. MCP 도메인에서 Tool Decathlon +3.7, MCPMark +12.3. Search 도메인에서 WideSearch F1 Item +16.3(34.02 -> 50.31)이 나왔는데, 훈련 환경이 완전히 허구(fictional world)임에도 실제 검색 태스크로 전이됩니다.

허구 세계 실험의 설계가 흥미롭습니다. 세계 모델에 "2029년의 스마트폰 시장 순위, 실존하지 않는 모델명"이 담긴 완전 허구 DB를 만들어 에이전트를 훈련하면, 에이전트는 DB에 없는 지식을 파라메트릭 기억에서 꺼낼 수 없어 검색 툴을 실제로 써야 합니다. 이 설계가 Real RL 대비 더 효과적인 검색 에이전트 훈련으로 이어집니다.

에이전트 파운데이션 모델로서의 이득

LWM RL(단일-턴, 비에이전틱 태스크)을 warm-up으로 사용한 뒤 멀티-턴 에이전틱 태스크 성능:

벤치마크	베이스	LWM RL 후	향상
Terminal-Bench 2.0	33.25	39.55	+6.30
SWE-Bench Verified	64.47	67.86	+3.39
SWE-Bench Pro	42.18	47.42	+5.24
WideSearch F1 Item	33.38	46.17	+12.79
Claw-Eval (OOD)	53.60	64.88	+11.28
QwenClawBench (OOD)	39.76	49.43	+9.67
BFCL v4 Avg (OOD)	62.29	71.25	+8.96

LWM 훈련은 싱글-턴 다음-상태 예측만 다루는데, 이 이득이 멀티-턴 툴-콜링 에이전틱 태스크로 전이됩니다. Claw-Eval, QwenClawBench, BFCL v4는 세계 모델 훈련 데이터와 완전히 무관한 OOD 도메인이라는 점에서 "도메인 특이적 단축키"가 아닌 일반 에이전트 역량이 향상됐음을 보여줍니다.

이 전이가 왜 일어나는지도 분석됐습니다. Terminal-Bench 2.0의 thinking trace를 분석하면, LWM RL 이후 모델이 행동하기 전 환경의 다음 상태를 명시적으로 예측하는 패턴이 증가합니다. 예측 정확도가 69.9%에서 78.3%(+8.4%)로 오르며, "행동 전 시뮬레이션"이 메타-추론 패턴으로 내재화된 결과임을 확인합니다. mailman 설정 케이스 스터디에서 LWM RL 이전 모델은 transport_maps로 라우팅을 설정하면 수신자 검증이 충분할 것이라 (잘못) 예측하고 시간을 낭비합니다. 이후 모델은 Postfix가 local_recipient_maps에서 먼저 수신자를 검증한다는 것을 미리 예측해 정확한 수정을 바로 실행합니다.

회고

저자들이 인정한 한계점입니다.

Factuality가 가장 어렵다. AgentWorldBench 5개 차원 중 Factuality가 RL 훈련 내내 가장 낮은 점수를 유지하며 상대적 개선폭도 11.3%로 가장 큽니다. 사실적 세계 지식이 환경 시뮬레이션의 병목임을 뒷받침하며, 이를 개선할 구체적 방법은 향후 과제로 남겨집니다.

GUI 도메인에서의 격차. 텍스트 전용 세계 모델링으로는 멀티모달 사전훈련(Claude Opus 계열)의 GUI 강점을 따라잡지 못했습니다. 저자들은 미래 작업으로 GUI 스크린샷과 텍스트 상태 표현을 통합하는 멀티모달 확장을 제시합니다.

초기 상태(initial state)가 병목. Sim RL 효과는 세계 모델에 충분히 상세한 초기 상태를 제공했을 때만 온전히 발현됩니다. 초기 상태가 빈약하면 시뮬레이션 충실도가 낮아지고 에이전트 이득이 줄어듭니다. 즉 시뮬레이터 품질뿐 아니라 "씨드 시나리오" 품질도 Sim RL 파이프라인의 핵심 요소입니다.

정리

Qwen-AgentWorld는 7개 에이전트 도메인을 단일 모델로 시뮬레이션하는 최초의 native 언어 세계 모델입니다. 397B 모델이 AgentWorldBench에서 GPT-5.4를 앞서며 텍스트 도메인에서 우위를 보입니다.
세계 모델을 환경 시뮬레이터로 분리(Decouple)하면 실제 환경이 거의 만들지 못하는 극단적 조건을 주입한 통제 Sim RL이 가능합니다. 완전 허구 세계에서 훈련한 에이전트가 실제 검색 태스크에서 +16.3 F1을 기록한 것이 핵심 증거입니다.
세계 모델을 에이전트와 통합(Unify)해 warm-up으로 쓰면 싱글-턴 비에이전틱 훈련만으로도 멀티-턴 에이전틱 태스크와 OOD 도메인 전반에서 일관되게 향상됩니다. LWM 훈련이 "행동 전 환경 예측"을 일반 추론 역량으로 내재화한다는 것을 thinking trace 분석으로 확인합니다.