2026. 03. 이달의 인물 - Mengdi Wang, Ling Yang

🏷️ 잡담

3월 AI 연구 커뮤니티에서 눈에 띈 흐름 하나는 "배포 중에 학습한다"는 발상의 진지한 구체화였습니다. 기존 RLHF 패러다임이 사전 수집된 데이터와 배치 학습을 전제로 삼았다면, 이 달의 몇몇 연구들은 에이전트가 이미 서비스되는 상태에서 실시간 대화 그 자체를 학습 신호로 쓰는 방향을 탐색했습니다. 이 흐름의 중심에 두 연구자가 있었습니다.

왕멍디

왕멍디은 프린스턴 대학교 전기컴퓨터공학과 및 통계기계학습센터 교수입니다. 칭화대 자동화학부를 졸업하고 MIT에서 Dimitri Bertsekas 지도 아래 확률적 최적화로 박사 학위를 받은 뒤, 2014년부터 프린스턴에서 강화학습 이론과 LLM 에이전트 학습을 연구해 왔습니다. 합성 최적화에 대한 확률적 경사 하강법을 최초로 제안한 연구자로, NSF Career Award, Google Faculty Award, AACC Donald Eckman Award 등을 수상했습니다. 최근 몇 년간은 LLM 추론과 에이전트 시스템에 RL을 접목하는 방향으로 연구 무게 중심을 옮겨 왔으며, 2024년 NeurIPS에서는 멀티 에이전트 팀 협력 학습, 2025년에는 에이전트 추론에서 RL이 어떻게 기능하는지를 분석한 연구를 발표했습니다.

3월에는 Gen-Verse 그룹과 공동으로 OpenClaw-RL을 발표하며 이달의 화두를 제시했습니다.

OpenClaw-RL - Train Any Agent Simply by Talking

RLHF와 RLVR 방식의 공통 전제는 학습과 서빙이 분리된다는 것입니다. 피드백 데이터를 모아서 배치로 학습하고, 새 버전을 배포합니다. 이 사이클에는 항상 지연이 있고, 배포된 에이전트가 현장에서 마주하는 생생한 피드백 신호는 대부분 그냥 버려집니다.

OpenClaw-RL은 이 낭비를 겨냥합니다. 에이전트가 행동을 취하면 반드시 다음 상태(next-state)가 돌아옵니다. 사용자의 후속 발화, 터미널 stdout, GUI 화면 전환, 테스트 케이스 결과 등입니다. 논문은 이 next-state signal에 두 가지 정보가 동시에 담겨 있다고 봤습니다. 하나는 이전 행동이 얼마나 좋았는지를 나타내는 평가 신호(evaluative signal), 다른 하나는 어떻게 달랐어야 하는지를 알려주는 지시 신호(directive signal)입니다. "파일부터 확인했어야지"라는 사용자 피드백은 스칼라 보상이 아니라 토큰 수준의 수정 방향을 담고 있습니다. 기존 RLVR은 스칼라 보상만 다루므로 directive signal을 버립니다. OpenClaw-RL은 두 신호를 모두 실시간으로 회수합니다.

이를 가능하게 하는 것이 비동기 루프 설계입니다. 정책 서빙, 환경 실행, 보상 판단, 모델 업데이트를 독립된 루프로 분리함으로써 서빙을 중단하지 않고도 모델이 계속 업데이트됩니다. 더 중요한 설계 선택은 개인화 에이전트와 범용 에이전트(터미널, GUI, SWE, 도구 호출)를 하나의 파이프라인에서 동시에 훈련한다는 점입니다. 개인 사용자 맥락에서 오는 신호와 일반 태스크에서 오는 신호가 같은 학습 흐름 안에서 처리됩니다. 수동 레이블링도, 별도의 데이터 수집 파이프라인도 없이, 사용자와의 대화 자체가 학습 데이터가 됩니다.

선정 이유

왕멍디을 3월의 인물로 꼽은 것은 OpenClaw-RL이 RL 이론 연구자가 실제 배포 문제를 가장 직접적으로 건드린 사례이기 때문입니다. 그의 이론 배경(확률적 최적화, 강화학습 수렴성 분석)이 실시간 온라인 업데이트 설계와 맞물렸고, HuggingFace에서 156 업보트를 기록하며 에이전트 RL 커뮤니티에서 가장 빠르게 확산된 논문 중 하나가 되었습니다. 강화학습 이론에서 출발해 실질적인 배포 문제를 다루는 연구자의 궤적이 이달에 명확하게 드러난 결과물이었습니다.

양링

양링은 프린스턴 대학교 전기컴퓨터공학과 박사후연구원이자 Princeton AI Lab 연구 펠로우입니다. 베이징대학교에서 2025년 박사 학위를 취득한 뒤 프린스턴으로 이동했으며, Gen-Verse 연구 그룹을 이끌고 있습니다. 확산 모델, LLM 추론, 에이전트 강화학습을 아우르는 폭넓은 연구 스펙트럼을 갖고 있습니다. 2022년 발표한 확산 모델 종합 서베이(arXiv:2209.00796)는 이 분야 연구자들 사이에서 가장 많이 참조되는 입문 문헌 중 하나입니다. 2025년에는 NeurIPS 스포트라이트를 받은 ReasonFlux와 오픈소스 멀티모달 확산 언어 모델 MMaDA를 발표했고, ICLR 2026에는 확산 LLM 관련 논문 4편, ICML 2026에는 에이전트 및 멀티모달 RL 논문 6편(1편 스포트라이트)이 accept되었습니다.

왕멍디 교수와의 협업으로 탄생한 OpenClaw-RL은 양링이 이끄는 Gen-Verse의 Open-AgentRL 이니셔티브 일환이기도 합니다.

OpenClaw-RL - Train Any Agent Simply by Talking

(앞서 설명한 논문과 동일 논문입니다. OpenClaw-RL은 두 연구자의 공동 제1저자 역할이 뚜렷한 협업 결과물입니다.)

OpenClaw-RL에서 양링의 기여는 비동기 학습 아키텍처의 설계와 실험 검증입니다. 칭화대 THUDM의 Slime 프레임워크 위에 비동기 루프를 쌓아 구현하면서, 확산 언어 모델 연구에서 축적한 생성 과정 제어 노하우를 에이전트 학습 파이프라인에 녹였습니다. 에이전트가 행동 직후 돌아오는 next-state를 dual signal로 분해하는 발상은 확산 모델의 역방향 과정(denoising trajectory)과 에이전트의 행동-관찰 루프를 같은 관점으로 바라본 데서 나왔다고 볼 수 있습니다. 생성 모델 이론 배경이 에이전트 RL 설계에 구체적으로 연결되는 지점입니다.

선정 이유

양링은 박사 과정을 마친 지 1년이 채 되지 않은 시점에 ICML 2026, ICLR 2026에 복수의 논문을 올리면서 Gen-Verse라는 독립적인 연구 그룹을 생산성 있게 이끌고 있습니다. 확산 모델, LLM 추론, 에이전트 RL을 이어 붙이려는 연구 방향이 이달에 OpenClaw-RL로 가장 직접적인 형태로 나타났습니다. 신진 연구자가 폭넓은 스펙트럼에서 뚜렷한 테마를 잡고 속도감 있게 치고 나가는 사례로, 3월의 화두와 가장 잘 맞닿아 있었습니다.

두 연구자가 이달에 만들어 낸 공통 주제는 결국 "실시간 상호작용이 학습이 되는 에이전트"입니다. 이론 측에서는 강화학습 수렴 분석을 쌓아온 왕멍디, 생성 모델 기초에서 출발해 에이전트 시스템으로 확장해온 양링, 두 경로가 만나서 하나의 논문이 되었습니다. 이 협업이 흥미로운 것은 방법론적 출발점이 달랐기 때문입니다. 수렴 보장을 따지는 최적화 이론과 생성 과정의 흐름을 설계하는 확산 모델 연구가 "배포 중 에이전트 학습"이라는 실용 문제 앞에서 같은 언어를 쓰게 된 순간이 3월에 있었습니다.