슝궈쥔

개요

슝궈쥔(Guojun Xiong)은 상하이교통대학교(SJTU) 컴퓨터과학부 존 홉크로프트 센터(John Hopcroft Center)의 테뉴어트랙 부교수입니다. 강화학습, 레스트리스 밴딧(restless bandits), 온라인 순차 의사결정, 네트워킹, 에이전트를 핵심 연구 분야로 삼고 있습니다.

하버드대학교 컴퓨터과학과에서 박사후연구원을 지낸 뒤 현재 직위로 이동했습니다. Operations Research와 온라인 순차 의사결정 이론을 AI의 사회 선(AI for Social Good) 응용과 연결하는 방향으로 연구를 진행합니다. 개인 홈페이지는 xionggj001.github.io입니다.

SJTU 동료 장웨이난, 에모리대의 탕성푸, 류카이쉬안 등과 활발히 협력하며 강화학습 이론과 LLM 에이전트 응용의 접점에서 연구 영역을 넓히고 있습니다.

생애

학부 시절부터 강화학습과 의사결정 이론에 관심을 가졌으며, 이후 칭화대학교 자이안 리(Jian Li) 교수 그룹과 협력하며 레스트리스 밴딧 이론을 깊이 연구했습니다. NeurIPS 2022에 발표한 무한 지평선 평균 보상 레스트리스 멀티액션 밴딧 논문이 초기 대표 성과입니다.

이후 하버드 컴퓨터과학과에서 박사후연구원으로 재직하며 Operations Research 관점의 온라인 순차 의사결정 연구를 심화했습니다. 하버드 John A. Paulson School of Engineering and Applied Sciences에 소속으로 활동한 이력이 있습니다.

현재는 SJTU 존 홉크로프트 센터에서 테뉴어트랙 부교수로 재직 중입니다. 이 센터는 컴퓨터과학 분야 튜링상 수상자 존 홉크로프트의 이름을 딴 SJTU 내 이론·알고리즘 중점 연구 센터입니다.

업적

레스트리스 밴딧 이론 연구에서 독자적 기여를 쌓아 왔습니다. 2022년 NeurIPS에 발표한 "Learning Infinite-Horizon Average-Reward Restless Multi-Action Bandits via Index Awareness"는 인덱스 인식(index awareness)을 활용해 무한 지평선 설정에서도 효율적인 학습이 가능함을 보였습니다. 2023년에는 장기 공정성 제약을 가진 온라인 레스트리스 밴딧 문제를 공식화하고 Fair-UCRL 알고리즘을 제안했습니다.

2024년에는 DOPL(Direct Online Preference Learning for Restless Bandits) 논문에서 스칼라 보상 대신 쌍별 선호 피드백만으로 학습하는 Pref-RMAB 모델을 제시했습니다. 이는 인간 피드백 기반 강화학습(RLHF)의 밴딧 확장판으로 평가됩니다.

LLM 에이전트 응용으로도 영역을 확장했습니다. Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents 논문의 교신저자로, 강화학습 이론 배경이 정책 유도 궤적 분해(Theorem 1)의 수학적 정식화에 기여했습니다. AAMAS 2026에는 저수지 관리를 위한 멀티에이전트 강화학습 논문 MARLIN이 수락됐습니다.

여담

레스트리스 밴딧이라는 분야 자체가 학계 밖에서 잘 알려지지 않은 영역이지만, 자원 희소 배분 문제(의료 개입, 네트워크 스케줄링 등)에 직접 적용될 수 있어 AI for Social Good 방향의 연구와 자연스럽게 연결됩니다. 슝궈쥔이 하버드 박사후연구원 시절부터 "AI for general Social Good"을 LinkedIn 자기소개에 명시할 만큼 이 방향성을 중시하는 것으로 알려져 있습니다.

SJTU 존 홉크로프트 센터는 이론 알고리즘 연구를 강조하는 환경으로, 강화학습 이론의 수학적 엄밀성을 유지하면서도 LLM 에이전트 같은 최신 응용과 연결하는 슝궈쥔의 연구 스타일과 잘 맞는 배경입니다.

칭화대 자이안 리 그룹과의 협력은 박사과정부터 이어진 것으로, 레스트리스 밴딧 공동 연구의 주축이 됐습니다. 학계 네트워크를 꾸준히 유지하며 SJTU 합류 후에도 다수 기관과 공동 연구를 이어가는 점이 특징입니다.

주요 논문

Learning Infinite-Horizon Average-Reward Restless Multi-Action Bandits via Index Awareness (NeurIPS 2022)
Online Restless Multi-Armed Bandits with Long-Term Fairness Constraints (AAAI 2024)
DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback (arXiv 2410.05527, 2024)
MARBLE: Multi-Armed Restless Bandits in Latent Markovian Environment (arXiv 2511.09324, 2025)
Finite-Horizon Single-Pull Restless Bandits: An Efficient Index Policy for Scarce Resource Allocation (arXiv 2501.06103, 2025)
Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents (교신저자)
MARLIN: Multi-Agent Reinforcement Learning with Murmuration Intelligence and LLM Guidance for Reservoir Management (AAMAS 2026)