Tianyu Pang

🏷️ 인물 강화학습 LLM 머신러닝

Tencent Hunyuan의 수석 연구과학자(Principal Research Scientist)이자 멀티모달 RL 테크리드. 2022년 칭화대 컴퓨터과학과에서 Jun Zhu 교수 지도하에 박사학위를 받았고, 학부는 같은 대학 수학·물리 복수전공이다. 2022~2025년 Sea AI Lab(SAIL)에서 시니어 연구과학자로 일하다가 Tencent Hunyuan으로 이직했다. Google Scholar 피인용 수 17,000회 이상으로 생성 모델, 강화학습, 신뢰 가능한 AI 분야에서 영향력 있는 연구자다.

대표 연구로는 LLM post-training의 신뢰 영역 문제를 정면으로 다룬 DPPO(Penghui Qi 등과 공저)가 있다. DPPO는 PPO의 ratio-clipping을 divergence 기반 마스크로 교체해 long-tail 어휘 문제를 해소했으며, Rethinking the Divergence Regularization in LLM RL의 출발점이 됐다. NeurIPS, JMLR, Nature Communications 등 최상위 학술지·컨퍼런스에 논문을 게재해왔다.

DRPO 논문에서는 교신저자(corresponding author)로, Tencent Hunyuan UniRL 프레임워크의 기술 방향을 총괄했다. Jiarui Yao, Xiangxin Zhou의 Tencent 측 연구를 이끌며 NUS 팀(Penghui Qi, Wee Sun Lee)과 협업을 조율했다.