Training-Free Group Relative Policy Optimization

🏷️ 논문 LLM

Y. Cai, S. Cai, Y. Shi, Z. Xu, L. Chen, Y. Qin, X. Tan, G. Li, Z. Li, H. Lin, Y. Mao, K. Li and X. Sun, "Training-Free Group Relative Policy Optimization", arXiv preprint arXiv:2510.08191, 2025.

강화학습을 통해 대형 언어 모델(LLM)의 성능을 향상시키려면 일반적으로 막대한 계산 비용과 데이터가 필요합니다. 특히 GRPO(Group Relative Policy Optimization)와 같은 방법은 모델 파라미터를 직접 업데이트하면서 뛰어난 성능을 보여주지만, 수만 달러의 학습 비용과 과적합 문제를 야기합니다. 본 논문은 이러한 한계를 극복하기 위해 파라미터 업데이트 없이 경험적 지식만으로 정책을 최적화하는 Training-Free GRPO를 제안합니다.

요약

핵심 아이디어: 기존 GRPO가 그래디언트 업데이트를 통해 파라미터 공간에서 정책을 최적화하는 반면, Training-Free GRPO는 맥락 공간(context space)에서 정책을 최적화합니다. 즉, 모델 파라미터는 동결한 채로 경험적 지식(experiential knowledge)을 토큰 사전 정보(token prior)로 활용하여 출력 분포를 조정합니다.

1-trainig-free-grpo-1.png

주요 구성 요소:

실험 결과:

주요 평가 지표:

논문 상세

Introduction

LLM 에이전트는 복잡한 실세계 환경에서 뛰어난 범용 능력을 보여주지만, 특화된 도메인에서는 종종 성능이 저하됩니다. 기존의 에이전트 강화학습(Agentic RL) 방법들은 GRPO를 사용하여 파라미터 공간에서 모델 행동을 정렬하지만, 다음과 같은 실용적 문제가 있습니다:

저자들은 "RL을 파라미터 공간에서 적용하는 것만이 유일한 방법인가?"라는 질문을 던지며, Training-Free GRPO를 통해 이에 긍정적으로 답합니다.

Method: Training-Free GRPO

Vanilla GRPO와의 비교:

기존 GRPO는 다음과 같이 동작합니다:

  1. 정책 \(\pi_\theta\)로 G개 출력 생성: \({o_1, o_2, \ldots, o_G}\)
  2. 보상 모델로 각 출력 점수화: \(r_i = R(q, o_i)\)
  3. 그룹 상대 어드밴티지 계산: \(\hat{A}_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}\)
  4. PPO 목적 함수 \(J_{\text{GRPO}}(\theta)\) 최대화하여 파라미터 \(\theta\) 업데이트

Training-Free GRPO는 이 로직을 비파라메트릭 추론 시간 프로세스로 변환합니다:

1단계: 롤아웃 및 보상

2단계: 그룹 어드밴티지 계산

3단계: 최적화

이 접근 방식은 맥락을 변경하여 GRPO의 정책 업데이트와 유사한 효과를 달성하며, 동결된 기본 모델 \(\pi_\theta\)는 강력한 사전 정보로 작용하여 출력 일관성을 보장합니다.

Mathematical Reasoning Experiments

벤치마크 및 설정:

주요 결과:

DeepSeek-V3.1-Terminus에 적용된 Training-Free GRPO는 100개의 out-of-domain 샘플과 제로 그래디언트 업데이트만으로 수천 개의 샘플과 $10,000 이상의 비용이 드는 32B RL 모델들을 능가했습니다.

학습 동역학:

Ablation Study:

작은 모델 적용성:

Web Searching Experiments

데이터셋 및 설정:

주요 결과:

모델 능력 의존성:

Cross-Domain Transfer Analysis

파라미터 기반 방법의 주요 약점은 도메인 특화로 인한 일반화 능력 손실입니다:

반면 Training-Free GRPO는 도메인별 경험을 플러그인하는 것만으로 모든 도메인에서 최고 성능 달성:

이는 실세계에서 다양한 요구사항을 가진 환경에 에이전트를 배포할 때 매우 유용합니다.

Computational Cost Analysis

학습 비용:

추론 비용:

Related Work

LLM Agents: ReAct, Toolformer, MetaGPT, CodeAct, OWL 등 도구 통합 및 계획 프레임워크

Reinforcement Learning: PPO, GRPO, GiGPO, ReTool, Chain-of-Agents 등 파라미터 업데이트 기반 방법들

Training-Free Methods:

Training-Free GRPO는 기존 방법들과 달리 전통적 RL과 유사하게 별도 데이터셋에서 여러 에폭에 걸쳐 학습하며, 단일 궤적이 아닌 그룹 내 여러 롤아웃을 비교하여 의미론적 어드밴티지를 추출합니다.

Conclusion

Training-Free GRPO는 RL 정책 최적화를 파라미터 공간에서 맥락 공간으로 전환하는 새로운 패러다임을 제시합니다. 그룹 기반 롤아웃을 활용하여 의미론적 어드밴티지를 반복적으로 추출하고 이를 진화하는 경험적 지식으로 통합함으로써, 동결된 LLM 에이전트의 출력 분포를 성공적으로 조정하고 특화 도메인에서 상당한 성능 향상을 달성합니다. 실험 결과는 Training-Free GRPO가 데이터 부족과 높은 계산 비용이라는 실용적 문제를 극복할 뿐만 아니라 기존 파라미터 튜닝 방법을 능가함을 보여줍니다.