Agent Learning via Early Experience
언어 에이전트가 자신의 경험을 통해 스스로 학습하고 발전하는 것, 이는 오랫동안 인공지능 분야의 목표였습니다. 하지만 실제 환경에서는 보상 신호가 명확하지 않거나, 멀티턴 태스크처럼 긴 시퀀스가 필요한 경우가 많아 강화학습을 적용하기 어려웠죠. 그래서 대부분의 현재 에이전트들은 전문가 데이터를 활용한 지도학습에 의존하고 있습니다.
K. Zhang, X. Chen, B. Liu, T. Xue, Z. Liao, Z. Liu, X. Wang, Y. Ning, Z. Chen, X. Fu, J. Xie, Y. Sun, B. Gou, Q. Qi, Z. Meng, J. Yang, N. Zhang, X. Li, A. Shah, D. Huynh, H. Li, Z. Yang, S. Cao, L. Jang, S. Zhou, J. Zhu, H. Sun, J. Weston, Y. Su and Y. Wu, "Agent Learning via Early Experience", arXiv preprint arXiv:2510.08558, 2025.
논문에서는 이런 한계를 극복하기 위해 초기 경험(Early Experience) 이라는 새로운 학습 패러다임을 제안합니다. 모방학습과 강화학습 사이의 중간 다리 역할을 하면서, 보상 신호 없이도 에이전트가 자신의 행동으로 생성된 미래 상태를 학습 신호로 활용할 수 있도록 합니다.
요약
아키텍처: 두 가지 학습 전략을 제안합니다.
- 암묵적 세계 모델링(Implicit World Modeling): 에이전트가 수집한 상태 전이를 활용해 환경 역학을 내재화합니다.
- 자기 성찰(Self-Reflection): 에이전트가 자신의 비최적 행동을 전문가 행동과 비교하며 학습합니다.
모델: Llama-3.2-3B, Qwen-2.5-7B, Llama-3.1-8B, Llama-3.3-70B 등 여러 모델 패밀리에서 평가했습니다.
데이터셋: 8개의 다양한 환경에서 테스트했습니다.
- 구현 및 과학 시뮬레이션: ALFWorld, ScienceWorld, TravelPlanner
- 멀티턴 도구 사용: SearchQA, BFCLv3, Tau-Bench
- 웹 내비게이션: WebShop, WebArena-Lite
평가 메트릭: 각 벤치마크의 성공률(Success Rate)을 주요 지표로 사용했으며, 도메인 외 일반화 성능과 강화학습과의 호환성도 평가했습니다.
훈련 방법:
- 모든 실험에서 일관된 프롬프트 형식과 디코딩 전략을 사용했습니다.
- 암묵적 세계 모델링은 1 에폭 동안 세계 모델링 목적 함수로 학습한 후, 모방 학습과 동일한 총 업데이트 스텝 수를 유지하며 지도 학습을 계속했습니다.
- 자기 성찰은 모방 학습과 동일한 에폭 수만큼 훈련했습니다.
성과: 모방학습 대비 평균 성공률 +9.6, 도메인 외 일반화 +9.4의 성능 향상을 보였으며, 강화학습과 결합 시 최대 +6.4의 추가 성능 향상을 달성했습니다.
논문 상세
Introduction
언어 에이전트는 대규모 언어 모델을 기반으로 웹사이트 탐색, 도구 제어, 과학 연구 지원 등 다양한 환경에서 활용되고 있습니다. 전통적으로 AlphaGo 같은 에이전트는 강화학습을 통해 초인적 성능을 달성했지만, 실제 언어 에이전트에 강화학습을 적용하기는 여전히 어렵습니다.
많은 환경들이 검증 가능한 보상 신호를 제공하지 않거나, 멀티턴 도구 사용처럼 긴 상호작용 시퀀스로 인해 신용 할당(credit assignment)이 어렵기 때문입니다. 그래서 현재 대부분의 에이전트는 전문가가 큐레이션한 데이터로 지도학습을 진행하는데, 이는 데이터 확장이 어렵고 일반화 성능이 낮다는 한계가 있습니다.
이 논문은 이런 한계를 해결하기 위해 초기 경험 패러다임을 제안합니다. 에이전트가 자신의 행동으로 생성된 미래 상태를 보상 신호 없이 학습에 활용하는 방식입니다.
Early Experience 패러다임
초기 경험 패러다임의 핵심 아이디어는 다음과 같습니다.
전문가 궤적 \(D_{expert} = {(s_i, a_i)}_{i=1}^N\)에서 각 상태 \(s_i\)마다, 초기 정책 \(\pi_\theta\)를 사용해 \(K\)개의 대안 행동 \(A_i = {a_i^1, a_i^2, ..., a_i^K}\)를 샘플링합니다. 각 대안 행동 \(a_i^j\)를 환경에서 실행하여 다음 상태 \(s_i^j\)를 얻습니다.
이렇게 수집한 롤아웃 데이터셋은:
\[D_{rollout} = {(s_i, a_i^j, s_i^j) | i \in [N], j \in [K]}\]
이 데이터셋이 명시적 보상 없이도 풍부한 학습 신호를 제공합니다.
암묵적 세계 모델링(Implicit World Modeling)
세계 모델링을 보조 예측 태스크로 정식화합니다. 각 롤아웃 트리플 \((s_i, a_i^j, s_i^j)\)에 대해, 모델은 상태-행동 쌍을 입력으로 받아 결과 다음 상태를 예측합니다:
\[L_{IWM} = -\sum_{(s_i, a_i^j, s_i^j) \in D_{rollout}} \log p_\theta(s_i^j | s_i, a_i^j)\]
이 목적 함수는 모델이 환경 동역학의 규칙성을 포착하도록 유도합니다. 실제로는 2단계 파이프라인을 사용하는데, 먼저 \(L_{IWM}\)으로 훈련하여 동역학을 내재화한 후, 전문가 데이터 \(D_{expert}\)로 파인튜닝합니다.
자기 성찰(Self-Reflection)
에이전트가 자신의 탐색 결과로부터 학습하는 메커니즘입니다. 각 전문가 상태 \(s_i\)에서 전문가 행동 \(a_i\)와 대안 행동 \(a_i^j\)를 실행하여 각각 \(s_{i+1}\)과 \(s_i^j\)를 얻습니다.
그런 다음 언어 모델에게 프롬프트를 주어, 두 결과 상태의 차이를 기반으로 왜 전문가 행동이 더 나은지 설명하는 사고 과정 \(c_i^j\)를 생성하도록 합니다.
결과 데이터 \(D_{refl}\)에 대해 다음과 같이 훈련합니다:
\[L_{SR} = -\sum_{(s_i, a_i^j, c_i^j) \in D_{refl}} \log p_\theta(c_i^j, a_i | s_i)\]
실제로는 자기 성찰 데이터 \(D_{refl}\)과 전문가 데이터 \(D_{expert}\)를 혼합하여 훈련합니다.
실험 결과
효과성(Effectiveness)
8개 환경 전반에서 모방학습 대비 일관된 성능 향상을 보였습니다.
- ALFWorld: IWM +2.3~+5.5, SR +4.7~+13.3
- WebShop: IWM +11.3~+18.4, SR +10.6~+10.9
- TravelPlanner: IWM +8.9~+12.8, SR +12.8~+15.0
- BFCLv3: SR +8.0 (3B 모델)
- SearchQA: +0.6~+3.3
행동 공간의 특성에 따라 다른 패턴을 보였습니다. 닫혀 있고 유한한 행동 집합(ALFWorld, ScienceWorld)에서는 IWM이 전이 규칙성을 내재화하는데 효과적이었고, 구조화되었지만 큰 행동 집합(BFCLv3, Tau-Bench)에서는 SR이 더 큰 향상을 보였습니다.
도메인 외 일반화
ALFWorld, SearchQA, BFCLv3의 OOD 평가에서 초기 경험 방법들이 모방학습 대비 일관되게 성능 격차를 회복했습니다. 특히 일부 벤치마크(ALFWorld, SearchQA)에서는 OOD 향상폭이 도메인 내 향상폭을 초과했습니다.
- ALFWorld: IWM +3.1~+14.8, SR +3.1~+9.4
- SearchQA: IWM +2.2~+4.9, SR +3.3~+4.2
- BFCLv3: SR +8.5 (3B 모델)
강화학습과의 호환성
WebShop, ALFWorld, SearchQA에서 초기 경험 방법으로 훈련한 체크포인트를 시작점으로 GRPO 알고리즘을 적용했을 때, 모방학습으로 시작한 경우보다 일관되게 더 높은 최종 성능에 도달했습니다.
일부 경우에는 강화학습 중에 성능 격차가 더 벌어졌고(예: ALFWorld), 다른 경우에는 격차가 좁혀지지만 역전되지는 않았습니다. 이는 초기 경험이 강화학습을 위한 더 나은 초기화를 제공함을 보여줍니다.
전문가 데이터 양의 영향
WebShop과 ALFWorld에서 전문가 궤적 수를 1/8, 1/4, 1/2, 1로 변화시키며 실험한 결과, 초기 경험 방법은 모든 데이터 수준에서 모방학습보다 일관되게 앞섰습니다.
- WebShop: 1/8 데이터만으로도 전체 데이터로 훈련한 모방학습을 능가
- ALFWorld: 1/2 데이터로 전체 데이터 모방학습과 동등
분기 인자의 영향
분기 인자 \(K\)(각 전문가 상태당 롤아웃하는 대안 행동 수)를 변화시킨 실험에서, IWM은 \(K\)가 증가할수록 일관되게 향상되었습니다. SR은 작거나 중간 정도의 \(K\)에서 향상되었고, 매우 큰 \(K\)에서는 비단조적 패턴을 보였습니다.
모델 스케일링
WebArena에서 3B, 8B, 70B 모델로 실험한 결과, 초기 경험은 모든 스케일에서 모방학습을 능가했습니다. 70B 모델에서도 격차가 유지되었으며, 이는 초기 경험이 제공하는 감독 신호가 모델 크기를 대체하는 것이 아니라 보완한다는 것을 보여줍니다.
베이스라인과의 비교
두 가지 대안 방법과 비교했습니다.
Long CoT (테스트 시간 스케일링): 추론 전에 더 긴 사고 과정을 생성하도록 프롬프트를 강제하는 방법입니다. 모방 학습된 모델은 고유한 근거가 부족한 전문가 궤적으로만 훈련되어, 확장된 체인이 종종 표류하거나 무효한 행동으로 붕괴되었습니다.
STaR 스타일 데이터: 각 상태에서 전문가 행동에 대한 근거를 생성하고, 예측 행동이 전문가와 일치하는 경우만 유지하는 방법입니다. 생성된 행동과 전문가 행동의 매치율이 낮아 사용 가능한 훈련 데이터가 적었고, 유지된 근거가 실제 환경에서 테스트되지 않아 성능이 오히려 저하되는 경우가 있었습니다.
반면 초기 경험은 정책의 비전문가 롤아웃을 관찰된 다음 상태에서 근거 있는 감독 신호로 직접 변환하여, 이러한 대안들이 달성하지 못한 강건한 향상을 제공했습니다.
Limitations and Future Work
현재 접근법은 단기 궤적에 초점을 맞추고 있습니다. 명시적 보상 없이 장기 신용 할당을 다루는 것은 여전히 과제로 남아 있습니다.
향후 연구 방향으로는 더 풍부한 자기 지도 목적 함수와 초기 경험의 결합, 환경 간 전이 학습, 지속적 학습 설정에서 보상 기반 파인튜닝과의 통합 등을 탐색할 예정입니다. 또한 이 논문에서 제안한 두 가지 접근법 외에도 초기 경험의 다른 인스턴스를 조사할 계획입니다.
이 논문은 언어 에이전트 학습에서 모방학습과 강화학습 사이의 실용적인 다리를 제시합니다. 보상 신호 없이도 에이전트 자신의 경험을 학습 신호로 전환함으로써, 현재의 데이터 중심 접근법과 미래의 경험 주도 학습 사이의 간극을 효과적으로 메우고 있습니다.