Jinyang Wu

🏷️ 인물 강화학습 에이전트

청화대학교(Tsinghua University) 자동화학과 소속 연구자로, Jianhua Tao 교수 지도하에 LLM 기반 에이전트 훈련과 에이전틱 강화학습을 연구한다. SPARK(전략적 정책 인식 탐색), SDAR(자기 증류 에이전틱 RL), Maestro(계층적 모델-스킬 앙상블 조율), OPID(온-폴리시 스킬 증류) 등 에이전트 훈련 분야 논문 다수를 발표했으며, OPID에서 프로젝트 리더를 맡았다.