Jinyang Wu
청화대학교(Tsinghua University) 자동화학과 소속 연구자로, Jianhua Tao 교수 지도하에 LLM 기반 에이전트 훈련과 에이전틱 강화학습을 연구한다. SPARK(전략적 정책 인식 탐색), SDAR(자기 증류 에이전틱 RL), Maestro(계층적 모델-스킬 앙상블 조율), OPID(온-폴리시 스킬 증류) 등 에이전트 훈련 분야 논문 다수를 발표했으며, OPID에서 프로젝트 리더를 맡았다.
청화대학교(Tsinghua University) 자동화학과 소속 연구자로, Jianhua Tao 교수 지도하에 LLM 기반 에이전트 훈련과 에이전틱 강화학습을 연구한다. SPARK(전략적 정책 인식 탐색), SDAR(자기 증류 에이전틱 RL), Maestro(계층적 모델-스킬 앙상블 조율), OPID(온-폴리시 스킬 증류) 등 에이전트 훈련 분야 논문 다수를 발표했으며, OPID에서 프로젝트 리더를 맡았다.