팡톈위

🏷️ 인물 강화학습 LLM 머신러닝 교수 Nature논문 NeurIPS논문 Star

개요

팡톈위(Tianyu Pang, 庞天宇)는 Tencent Hunyuan 팀의 수석 연구과학자(Principal Research Scientist)이자 멀티모달 강화학습 테크리드입니다. 생성 모델, 적대적 견고성(adversarial robustness), 강화학습, 신뢰 가능한 AI 분야를 넘나드는 연구자로, Google Scholar 피인용 수 17,000회를 상회합니다.

학계 최전선에서 산업계로 이동하는 경로를 밟으며, 각 단계에서 해당 분야의 핵심 문제를 정면으로 다뤘습니다. 적대적 공격에 강건한 모델 훈련 방법에서 출발해 LLM 후처리(post-training) 안정성, 멀티모달 강화학습으로 연구 영역을 계단식으로 확장해 왔습니다.

2026년 초 Tencent Hunyuan에 합류한 이후에는 멀티모달 강화학습 파이프라인의 기술 방향을 총괄하고 있습니다. NeurIPS 2025, ICML 2026에 논문을 발표하며 연구 활동을 이어가고 있으며, Tencent의 차세대 모델 라인업 개발에서 핵심 역할을 맡고 있는 인물입니다.

생애

팡톈위는 중국에서 태어나 칭화대학교(Tsinghua University)에서 수학과 물리학을 복수전공으로 이수했습니다. 탄탄한 수리적 기반 위에 인공지능 연구를 쌓아 올린 케이스로, 학부 졸업 후 같은 대학 컴퓨터과학과 박사과정에 진학해 Jun Zhu 교수 지도 아래 연구를 이어갔습니다. 박사 기간 동안 적대적 견고성이라는 주제를 파고들며 NeurIPS, ICML, ICLR 등 최상위 학술 행사에 꾸준히 논문을 발표했습니다.

2022년 박사학위를 취득한 직후 싱가포르 Sea AI Lab(SAIL)에 시니어 연구과학자로 합류해 LLM 안전성과 멀티모달 모델 연구로 범위를 넓혔습니다. 2022년부터 2025년까지 SAIL에서 활동하며 적대적 공격에서 LLM 탈옥(jailbreak)까지 연구 주제를 확장했습니다.

2026년 1월 말 Tencent Hunyuan 팀으로 이직해 같은 해 2월 초 공식 합류했습니다. Tencent가 AI 경쟁력 강화를 위해 공격적으로 채용한 탑 인재 중 한 명으로 평가받고 있으며, 중국 기술 미디어 TMT Post 등이 그의 합류를 집중 보도했습니다.

업적

팡톈위의 초기 대표 작업은 적대적 견고성 연구입니다. 훈련 데이터나 구조적 설계로 모델이 적대적 공격에 버티도록 만드는 여러 기법을 제안했으며, "Boosting Adversarial Training with Hypersphere Embedding"(NeurIPS 2020)과 "Bag of Tricks for Adversarial Training"(ICLR 2021)은 실용적인 기법 모음으로 커뮤니티 표준 레퍼런스가 되었습니다.

LLM 시대로 접어들면서는 LLM 후처리의 안정성 문제로 시선을 돌렸습니다. PPO 기반 강화학습의 ratio-clipping이 긴 꼬리(long-tail) 어휘에서 발생하는 divergence를 제대로 처리하지 못한다는 점을 지적하고, divergence 기반 마스크로 교체한 DPPO를 제안했습니다. 이 작업은 이후 Tencent Hunyuan의 UniRL 프레임워크로 발전했습니다.

Tencent 합류 이후에는 멀티모달 강화학습의 기술 리더로서 "NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation"(NeurIPS 2025)과 "Optimizing Anytime Reasoning via Budget Relative Policy Optimization"(ICML 2026) 등을 발표하며 시각-언어 모델의 추론 능력 강화 연구를 이어가고 있습니다.

여담

팡톈위는 30대 초반의 나이에 수석 연구과학자로 영입된 사례로 중국 AI 커뮤니티에서 주목받았습니다. 칭화대 수학, 물리 복수전공 출신답게 연구 스타일이 이론적으로 탄탄합니다. 적대적 견고성, LLM 안전성, 멀티모달 RL이라는 서로 달라 보이는 세 분야를 관통하는 공통 테마는 모두 "학습 과정의 안정성과 신뢰성을 수학적으로 보장하는 것"입니다.

Sea AI Lab 재직 시절 싱가포르 NUS 팀과의 협업 경험은 이후 Tencent에서 다국적 공동 연구를 이끄는 기반이 되었습니다. Jun Zhu 그룹의 베이즈-딥러닝 전통과 SAIL의 응용 지향 문화가 그의 연구 스타일에 모두 녹아 있다는 점에서, 이론과 실용 양쪽에 걸친 균형 잡힌 연구자로 평가받습니다.

박사 시절부터 쌓아온 적대적 견고성 분야의 성과들이 현재의 LLM 후처리 안정성 연구로 자연스럽게 이어졌다는 점에서, 일관된 연구 철학을 바탕으로 영역을 확장해 온 케이스로 볼 수 있습니다.

주요 논문

Boosting Adversarial Training with Hypersphere Embedding (NeurIPS 2020)
Bag of Tricks for Adversarial Training (ICLR 2021)
Rethinking Softmax Cross-Entropy Loss for Adversarial Robustness (ICLR 2020)
Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks (ICLR 2020)
Improving Adversarial Robustness via Promoting Ensemble Diversity (ICML 2019)
Better Diffusion Models Further Improve Adversarial Training (ICML 2023)
On Evaluating Adversarial Robustness of Large Vision-Language Models (NeurIPS 2023)
Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast (ICML 2024)
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation (NeurIPS 2025)
Optimizing Anytime Reasoning via Budget Relative Policy Optimization (ICML 2026)