치펑후이

개요

치펑후이(Penghui Qi)는 싱가포르국립대학교(NUS) Sea AI Lab 소속 박사 연구원입니다. 위선리(Wee Sun Lee) 교수 그룹에서 LLM 강화학습의 안정성 문제를 연구합니다. 특히 PPO와 GRPO 같은 정책 최적화 알고리즘이 대규모 어휘를 다루는 LLM 환경에서 구조적으로 취약해지는 원인을 이론적으로 규명하는 데 집중합니다.

그의 연구 방향은 알고리즘 이론과 실용적 안정성 사이의 간극을 메우는 데 있습니다. ratio 기반 trust region이 저빈도 어휘 토큰에서 중요도 비율이 폭발적으로 커지는 문제를 발견하고, 이를 divergence 기반으로 대체하는 접근을 취합니다. 이 계통의 연구는 LLM 후학습(post-training) 커뮤니티에서 활발히 인용되고 있습니다.

2026년 기준 arXiv 제출 논문 수 편이 LLM RL 커뮤니티에서 주목받고 있으며, ICLR 2026에도 논문이 채택되는 등 가시적인 성과를 내고 있습니다. Sea AI Lab이라는 산학 연구 환경을 기반으로 이론과 시스템 구현을 병행하는 스타일을 유지합니다.

생애

치펑후이의 학부 및 박사 과정 세부 이력은 공개된 정보가 많지 않습니다. 현재는 싱가포르국립대학교에서 위선리 교수의 지도 아래 박사 과정을 밟으면서, Sea AI Lab과 연계된 환경에서 연구를 수행합니다.

Sea AI Lab은 싱가포르의 Sea 그룹이 설립한 연구 조직으로, 학계와 산업계를 연결하는 방식으로 운영됩니다. 치펑후이는 이 환경에서 LLM 후학습의 핵심 문제인 정책 최적화 안정성 연구에 집중해 왔습니다.

2026년 초 발표한 DPPO 논문이 LLM RL 분야에서 빠르게 주목받으면서, 팡톈위 팀을 포함한 여러 연구 그룹의 후속 연구에 직접적인 선행 연구로 자리잡았습니다. 이후 DRPO 프로젝트에서 프로젝트 리드를 맡아 협업 범위를 확장했습니다.

업적

치펑후이의 가장 대표적인 기여는 2026년 2월 arXiv에 발표한 DPPO 논문("Rethinking the Trust Region in LLM Reinforcement Learning", arXiv:2602.04879)입니다. 이 논문에서 그는 PPO와 GRPO가 사용하는 importance ratio 기반 clipping이 LLM의 대규모 어휘에서 구조적으로 실패함을 이론적으로 보였습니다. 저빈도 토큰에서 ratio가 폭발적으로 커지는 현상을 long-tail 어휘 취약성으로 명명하고, TV divergence 기반의 Binary-TV 마스크로 이를 대체하는 DPPO를 제안했습니다.

이 연구는 팡톈위 팀의 DRPO(Rethinking the Divergence Regularization in LLM RL)의 직접적 선행 연구가 되었고, 치펑후이는 DRPO 논문에서 프로젝트 리드 역할을 맡았습니다. R1-Zero 류 학습을 비판적으로 분석한 논문("Understanding R1-Zero-Like Training: A Critical Perspective", arXiv:2503.20783)도 공저했습니다.

ICLR 2026에는 SPIRAL("Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning", arXiv:2506.24119) 논문이 채택되었습니다. 멀티 에이전트 멀티턴 RL 프레임워크에서 자기 대국(self-play) 방식으로 추론 능력을 유도하는 이 연구는 LLM RL의 응용 범위를 게임 이론적 방향으로 확장합니다.

여담

치펑후이가 제안한 DPPO 논문은 2026년 2월 제출 후 5월과 6월에 걸쳐 두 차례 개정판이 나왔습니다. 커뮤니티의 활발한 피드백을 반영한 결과로, LLM 후학습 분야에서 논문이 살아 움직이는 방식을 잘 보여줍니다.

Training-inference mismatch로 인한 off-policy 문제를 FP16 수치 특성으로 극복하는 연구(arXiv:2510.26788)도 공저했는데, 이는 이론 분석과 공학적 해법을 동시에 다루는 그의 연구 스타일을 잘 보여줍니다.

Sea AI Lab이라는 산학 연구 조직 특성상 빠른 실험 사이클과 오픈 소스 공개를 선호하는 편이며, 공개된 코드와 논문을 통해 커뮤니티와 적극 소통합니다.

주요 논문

"Rethinking the Trust Region in LLM Reinforcement Learning" (DPPO), arXiv:2602.04879, 2026 -- DPPO 제안. PPO/GRPO의 ratio clipping 한계를 TV divergence로 대체.
"Rethinking the Divergence Regularization in LLM RL" (DRPO), 2026 -- 팡톈위 팀과 공저. 프로젝트 리드 담당.
"SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning", arXiv:2506.24119, ICLR 2026 -- 멀티 에이전트 RL로 LLM 추론 유도.
"Understanding R1-Zero-Like Training: A Critical Perspective", arXiv:2503.20783, 2025 -- R1-Zero 류 학습의 off-policy 문제 비판적 분석.
Training-inference mismatch 극복 연구, arXiv:2510.26788, 2025 -- FP16 수치 특성을 활용한 off-policy 보정.