류카이쉬안

🏷️ 인물 강화학습

개요

류카이쉬안(Kaixuan Liu)은 미국 에모리대학교(Emory University) 컴퓨터과학과 소속 연구자로, 오프라인 강화학습과 LLM 에이전트 평가를 주된 연구 주제로 삼고 있습니다. 특히 실제 환경과의 상호작용 없이 사전 수집된 데이터만으로 에이전트 성능을 평가하는 오프폴리시(off-policy) 평가 방법론에 집중합니다.

그의 연구에서 핵심 아이디어는 디퓨전 모델을 세계 시뮬레이터(world model)로 활용하는 것입니다. LLM 에이전트가 환경과 어떻게 상호작용하는지를 디퓨전 모델로 시뮬레이션해 평가 비용을 크게 줄이는 접근입니다. 이 방향은 실제 배포 전에 에이전트의 행동을 안전하게 검증하는 문제와도 직결됩니다.

에모리대학교탕성푸와 긴밀히 협력하며, 상하이교통대의 장웨이난, 슝궈쥔과도 공동 연구를 진행합니다.

생애

류카이쉬안은 에모리대학교 컴퓨터과학과에서 연구 활동을 이어오고 있습니다. 구체적인 학력 경로와 지도교수 등은 공개된 정보가 제한적이나, 탕성푸와의 공동 연구가 주된 축을 이루고 있습니다.

2025~2026년 기간의 주요 연구는 LLM 에이전트의 멀티턴(multi-turn) 상호작용 환경에서의 오프폴리시 평가 문제를 다룹니다. 실제 환경과 상호작용하는 온라인 평가는 비용이 크고 위험이 따르는 반면, 기존 오프라인 데이터에서 추정하는 방법은 에이전트 행동 변화를 반영하지 못한다는 한계가 있습니다. 류카이쉬안의 연구는 이 간극을 디퓨전 모델 기반 시뮬레이션으로 메우려는 시도입니다.

업적

류카이쉬안의 핵심 기여는 Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents(arXiv:2606.05558)에서 제안한 ADWM(Autoregressive Diffusion World Model) 프레임워크입니다. 이 논문의 제1저자로서 설계와 실험 전반을 주도했습니다.

ADWM의 핵심 아이디어는 세 가지입니다. 첫째, 잠재 디퓨전 세계 모델을 학습해 환경의 전이(transition) 동학을 시뮬레이션합니다. 둘째, 상태와 행동을 함께 디퓨전하는 기존 방법과 달리, 각 전이를 독립적인 디노이징 과정으로 처리해 단계별 롤아웃(step-by-step rollout)을 가능하게 합니다. 이로써 오차가 누적되는 문제(compounding error)를 완화합니다. 셋째, 평가 대상 LLM 에이전트 정책이 매 디노이징 스텝에서 디퓨전 생성을 직접 안내하는 폴리시 조건부 점수 함수(policy-conditioned score function)를 통해, 시뮬레이션 궤적이 에이전트의 실제 의사결정 패턴을 정확히 반영하도록 합니다.

기존 접근 방법들이 온라인 상호작용 없이는 평가 정확도가 낮거나 분포 이탈(distribution shift) 문제를 해결하지 못한 데 비해, ADWM은 사전 수집된 궤적만으로도 신뢰할 수 있는 평가 지표를 제공하는 것을 목표로 합니다.

여담

오프폴리시 평가는 강화학습에서 오래된 문제이지만, LLM 에이전트처럼 고비용의 환경(웹 탐색, 코드 실행, 문서 처리)과 상호작용하는 시스템에서 그 중요성이 더욱 커지고 있습니다. 실제 환경에서 수백, 수천 번 에이전트를 실행하지 않고도 신뢰할 수 있는 성능 추정치를 얻을 수 있다면, 에이전트 개발 사이클을 크게 단축할 수 있기 때문입니다.

디퓨전 모델을 세계 시뮬레이터로 활용하는 아이디어는 비전 기반 플래닝(Sora 등)과도 연결되지만, LLM 에이전트의 텍스트 기반 멀티턴 환경에 적용한 것은 별도의 기술적 도전을 수반합니다. 류카이쉬안의 연구는 이 교차점을 탐색하는 초기 시도 중 하나입니다.

주요 논문