DRPO

비율 클리핑의 구조적 한계

LLM을 강화학습으로 학습시킬 때 가장 널리 쓰이는 기법이 PPO와 GRPO입니다. 두 방법의 공통점은 비율 클리핑(ratio clipping)입니다. 이전 정책과 현재 정책의 확률 비율이 일정 범위를 벗어나면 그래디언트를 강제로 잘라버리는 방식이죠.

문제는 비율 클리핑이 실제 분포 이동(distributional shift)의 부실한 대리 지표라는 점입니다. 클리핑 경계 바로 안쪽의 업데이트와 바로 바깥쪽의 업데이트는 크기가 거의 같지만, 전자는 허용하고 후자는 통째로 버립니다. LLM처럼 어휘 분포가 long-tailed한 경우, 이 불연속성이 훈련 불안정으로 직결됩니다.

DPPO 같은 방법이 개선을 시도했지만, 경계에서 그래디언트를 마스크로 폐기하는 구조 자체를 벗어나지는 못했습니다. 안정성은 높아졌지만 수렴이 느리고 최종 성능이 낮다는 한계가 남았습니다.

DRPO의 접근: 하드 마스크를 부드러운 정규화로

2026년 6월 arXiv에 올라온 "Rethinking the Divergence Regularization in LLM RL"(2606.09821)은 이 문제를 다른 방식으로 접근합니다. 하드 마스크 대신 advantage-weighted quadratic regularizer를 사용합니다.

핵심 아이디어는 이렇습니다. 정책 이동이 신뢰 영역을 벗어날수록, 그래디언트에 점진적으로 패널티를 부여합니다. 경계에서 갑작스럽게 제로가 되는 게 아니라, 연속 함수로 감쇠합니다. 경계 안쪽의 업데이트는 거의 그대로 통과하고, 경계를 넘어갈수록 가중치가 줄어드는 구조입니다.

이 방법은 DPPO의 발산(divergence) 기반 기하학과 R2VPO 같은 정규화 방법의 부드러운 강제력을 결합합니다. 각 방법의 주요 제한을 피하면서 둘의 장점을 가져오는 방식입니다.

기존 방법들과의 비교

방법	방식	주요 문제
PPO / GRPO	비율 클리핑	long-tailed 어휘에서 분포 이동의 부실한 대리 지표
DPPO	발산 기반 하드 마스크	안정적이나 수렴 느리고 최종 성능 낮음
DRPO	부드러운 quadratic 정규화	연속 그래디언트, 안정성과 수렴 모두 개선

DPPO는 GRPO보다 안정적이지만 DRPO보다는 느리게 수렴하고 낮은 최종 정확도에 머뭅니다. 마스크 방식 자체의 구조적 천장이 있는 셈입니다.

LLM RL이 오프-정책으로 흐르는 이유

LLM 강화학습은 이론상 온-정책(on-policy)이어야 하지만 실제로는 오프-정책(off-policy)으로 흐릅니다. 추론 중에 모델이 생성한 텍스트를 학습 데이터로 쓰는데, 생성 시점과 학습 시점 사이에 모델이 업데이트되면 데이터가 낡아집니다. 이를 정책 노후화(policy staleness)라고 합니다.

오프-정책 상황에서 신뢰 영역 제어는 더욱 중요해집니다. 낡은 데이터로 너무 큰 업데이트를 하면 정책이 불안정해질 수 있으니까요. DRPO의 부드러운 정규화는 바로 이 상황에서 더 효과적으로 작동합니다. 경계 근처 업데이트를 통째로 버리는 대신, 가중치를 줄여서 사용하기 때문입니다.

실험 결과

저자들은 DRPO가 다양한 모델 규모, 아키텍처, 정밀도 설정에서 LLM RL 훈련의 안정성과 효율성을 일관되게 개선한다고 보고합니다.

특히 DPPO와 직접 비교했을 때, DRPO는 안정성을 유지하면서 더 빠르게 수렴하고 더 높은 최종 성능에 도달했습니다. 하드 마스크에서 부드러운 정규화로 바꾸는 것만으로 두 가지를 동시에 잡은 셈입니다.

왜 지금 이 논의가 다시 나오는가

비율 클리핑은 PPO가 처음 제안된 2017년부터 써온 방식입니다. LLM 시대에도 그대로 이어졌습니다. GRPO가 넓게 채택되고 LLM의 어휘 분포가 클리핑과 잘 맞지 않는다는 지적이 쌓이면서, 기반부터 다시 보자는 움직임이 생기고 있습니다.

DRPO는 하나의 알고리즘 개선을 넘어서, 신뢰 영역을 불연속으로 강제하는 대신 연속적으로 유도하자는 원칙을 제시합니다. 멀티태스크 RL, 온라인 RL처럼 더 복잡한 훈련 시나리오에서도 이 원칙이 적용될 여지가 있습니다.