Guojun Xiong
Guojun Xiong은 상하이교통대학교(SJTU) 컴퓨터과학부 존 홉크로프트 센터(John Hopcroft Center)의 테뉴어트랙 부교수입니다. 강화학습, 레스트리스 밴딧(restless bandits), 네트워킹, 온라인 순차 의사결정, 에이전트를 연구합니다. 하버드대 컴퓨터과학과에서 박사후연구원을 지냈습니다.
본 논문 Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents의 교신저자(corresponding author)로 참여했습니다. 강화학습 이론과 온라인 의사결정에 대한 그의 배경이, 정책 유도 궤적 법칙을 단일 스텝 조건부로 정확히 분해하는 이 논문의 핵심 정리(Theorem 1)와 맞닿아 있습니다. 같은 SJTU의 Weinan Zhang, 에모리대의 Shengpu Tang·Kaixuan Liu와 협업했습니다.