탕성푸

🏷️ 인물 강화학습 머신러닝 NeurIPS논문

개요

탕성푸(Shengpu Tang)는 미국 에모리 대학교(Emory University) 컴퓨터과학과 조교수입니다. 오프라인 강화학습(offline RL)과 오프폴리시 평가(off-policy evaluation, OPE)를 전공하며, 특히 의료 및 임상 의사결정에 강화학습을 적용하는 연구로 알려져 있습니다. 인과 추론과 강화학습을 결합하거나, OPE를 실제 운영 정책 선택의 프록시로 활용하는 파이프라인을 깊이 탐구해 왔습니다.

의료 도메인 외에도 멀티에이전트 강화학습, LLM 에이전트 평가, 인과 강화학습 등으로 연구 범위를 넓혀가고 있습니다. 에모리대 내에 독립 연구실을 운영하며 여러 박사·석사 학생들을 지도하고 있습니다.

생애

탕성푸의 학부 및 초기 학력에 대한 공개 자료는 제한적입니다. 현재는 에모리 대학교 컴퓨터과학과에 재직하며, 에모리 내에서는 AI 및 의료 AI 연구 커뮤니티의 일원으로 활동하고 있습니다. 연구실 웹사이트(shengpu-tang.me)를 통해 연구 그룹 멤버와 진행 중인 프로젝트를 공개하고 있습니다.

2022년 NeurIPS에 논문을 발표하며 오프라인 RL 분야에서 가시성을 높였고, 이후 의료 RL, OPE 방법론 연구를 꾸준히 이어왔습니다. 2026년에는 에모리 대학교 연구 위원회(URC)로부터 상을 받았으며, 같은 해 NeurIPS 2026 Program Chair Assistant, CHIL 2026 Senior Area Chair 등 학회 서비스 역할도 맡고 있습니다.

업적

오프라인 RL 분야에서 가장 잘 알려진 기여는 2022년 NeurIPS에 발표된 분해된 행동 공간(factored action space) 활용 효율적 오프라인 RL 논문입니다. 행동 공간이 크고 복잡한 임상 환경에서 샘플 효율을 높이는 방법론을 제시했으며, 의료 의사결정 시나리오에서의 실험으로 실용성을 입증했습니다.

2026년에는 패혈증 치료에 강화학습을 적용할 때 발생하는 시간적 어긋남(temporal misalignment) 문제를 다룬 논문 "Off by a beat"를 npj Digital Medicine에 게재했습니다. 강화학습 기반 치료 정책이 임상 타임라인과 얼마나 맞지 않을 수 있는지를 분석한 작업으로, 의료 RL의 신뢰성 문제를 실증적으로 다루었습니다.

Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents 논문에서는 시니어 저자로 참여했습니다. 새 LLM 에이전트를 실제로 배포하지 않고도 과거 로그만으로 성능을 추정하는 파이프라인을 제안한 이 논문은, OPE를 오래 연구해온 그의 문제의식이 LLM 에이전트 평가로 확장된 사례입니다. 제1저자인 류카이쉬안도 같은 에모리대 소속입니다.

여담

탕성푸는 강화학습이 의료에 실제로 적용되려면 "오프라인에서 충분히 검증된 정책만이 온라인으로 나아갈 수 있어야 한다"는 입장을 연구 전반에서 일관되게 유지합니다. OPE를 단순한 평가 지표로 보는 게 아니라, 임상 안전성과 강화학습 도입 사이의 가교로 보는 시각입니다.

멀티에이전트 강화학습 분야로도 관심을 넓혀, 인과 추론과 보상 기계(reward machine)를 결합해 에이전트들이 더 빠르게 협력 방법을 학습하게 하는 연구도 진행하고 있습니다. 이는 단일 에이전트 오프라인 RL에서 출발해 복합적인 에이전트 시스템으로 연구 범위가 확장되는 흐름을 보여줍니다.

주요 논문