토레 그래펠

🏷️ 머신러닝 LLM 강화학습 교수 Nature논문 NeurIPS논문 Star

개요

토레 그래펠(Thore Graepel)은 Google DeepMind의 디스팅귀시드 리서치 사이언티스트이자 유니버시티 칼리지 런던(UCL) 컴퓨터사이언스학부 머신러닝 석좌교수입니다. 베이즈 통계, 게임 이론, 강화학습, 협력 AI 분야에서 100편 이상의 피어리뷰 논문을 발표했으며, 수십 건의 특허를 공동 출원한 산학 겸임 연구자입니다.

그의 커리어는 학술 연구와 실제 시스템 구축을 동시에 추진해 온 것으로 특징지어집니다. Xbox Live에 배포된 TrueSkill 랭킹 시스템, 세계 최초로 프로 바둑 기사를 꺾은 AlphaGo, 협력 AI 연구 어젠다 공식화에 이르기까지, 그의 작업은 학술 논문을 넘어 실제 서비스와 사회적 영향으로 이어졌습니다.

2025년 Google DeepMind에 복귀한 이후에는 "포스트-AGI 미래(post-AGI futures)" 연구를 이끌고 있습니다. AGI 이후 세계에서 AI가 인간의 번영을 어떻게 지원할 수 있는지를 탐구하는 작업으로, 2026년에는 AGI에서 ASI(인공초지능)로의 전환을 분석한 보고서 "From AGI to ASI"를 Google DeepMind 소속으로 발표했습니다.

생애

토레 그래펠은 독일 출신으로, 함부르크 대학교와 임페리얼 칼리지 런던에서 물리학을 공부했습니다. 이후 베를린 공과대학교(TU Berlin)로 옮겨 머신러닝 분야 박사학위를 2001년에 취득했습니다. 물리학 배경은 이후 연구 전반에 확률론적, 수학적 엄밀함을 부여하는 토대가 되었습니다.

박사 후에는 ETH 취리히와 Royal Holloway에서 포스닥을 수행했습니다. 2003년 Microsoft Research Cambridge에 합류해 온라인 서비스 및 광고 그룹을 공동 창립했고, 이 시기에 TrueSkill과 AdPredictor 등 대규모 베이즈 시스템을 실전에 배포하는 경험을 쌓았습니다.

2016년 DeepMind로 이적해 AlphaGo 프로젝트에 합류했으며, 2021년에는 수명연장 바이오테크 기업 Altos Labs로 이동해 전 세계 계산과학 및 AI 대표(Global Lead)를 역임했습니다. 2025년 Google DeepMind에 재합류해 포스트-AGI 팀을 이끌기 시작했으며, 현재는 Cooperative AI Foundation 이사회 트러스티와 런던 수리과학연구소(London Institute for Mathematical Sciences) 거버너를 겸하고 있습니다.

업적

그래펠의 가장 널리 알려진 성과는 TrueSkill 랭킹 시스템입니다. Ralf Herbrich, Tom Minka와 함께 개발한 이 시스템은 베이즈 확률을 활용해 다인전 게임에서 각 플레이어의 실력 분포를 추론합니다. Xbox Live에 실제 배포되어 수억 명의 경쟁 매칭에 사용되었고, 이후 머신러닝 벤치마킹의 표준 기법으로 자리 잡았습니다.

두 번째 주요 업적은 AlphaGo입니다. 데이비드 실버(David Silver) 등과 함께 딥 뉴럴 네트워크와 몬테카를로 트리 탐색을 결합한 방법으로, 2016년 바둑 세계 챔피언 이세돌을 공개 대국에서 4대 1로 꺾었습니다. 이 결과는 Nature에 게재되었으며, AI의 게임 정복 역사에서 중요한 분기점으로 기록됩니다.

세 번째 기여는 협력 AI(Cooperative AI) 연구의 공식화입니다. 앨런 다포(Allan Dafoe) 등과 함께 "AI 시스템이 서로, 그리고 인간과 협력하는 능력"을 체계적으로 연구하는 어젠다를 제시했으며, 이는 Cooperative AI Foundation 설립으로 이어졌습니다. 2026년 발표한 "From AGI to ASI"는 AGI 달성 이후 기계 지능의 연속선 위에서 AI가 어떻게 발전할 수 있는지를 분석한 보고서로, 포스트-AGI 논의에서 중요한 참조 문헌이 되고 있습니다.

여담

그래펠은 물리학과 머신러닝의 접점에서 커리어를 시작한 만큼, 불확실성을 수치화하고 확률 분포로 추론하는 베이즈 사고방식이 연구 전반에 일관되게 나타납니다. TrueSkill의 베이즈 실력 평가, AlphaGo의 확률 기반 수 평가, 협력 AI에서의 게임 이론적 분석이 모두 같은 철학적 뿌리에서 출발했습니다.

Altos Labs 재직 시절에는 생물학적 수명연장 문제에 AI를 접목하는 시도를 이끌었습니다. 주류 딥러닝 커뮤니티에서 다소 이례적인 경력이었지만, 바이오와 컴퓨팅 학제 간 연구에서 귀중한 경험을 쌓는 계기가 되었습니다.

Partnership on AI 이사회에도 합류해 AI 거버넌스와 윤리 의제에 기여하고 있습니다. 런던 정경대(LSE) 등에서 "포스트-AGI 미래"를 주제로 강연을 이어가며, 자신의 연구가 사회에 미치는 영향을 적극적으로 고민하는 연구자로 알려져 있습니다.

주요 논문

TrueSkill: A Bayesian Skill Rating System (NeurIPS 2007, with R. Herbrich, T. Minka)
Mastering the Game of Go with Deep Neural Networks and Tree Search (Nature, 2016, AlphaGo)
Mastering the Game of Go without Human Knowledge (Nature, 2017, AlphaGo Zero)
A General Reinforcement Learning Algorithm that Masters Chess, Shogi, and Go through Self-Play (Science, 2018, AlphaZero)
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (Nature, 2020, MuZero)
Cooperative AI: Machines Must Learn to Find Common Ground (Nature, 2021, with A. Dafoe et al.)
AdPredictor: A Bayesian Click-Through-Rate Prediction System (ICML 2010)
Kernel Topic Models (AISTATS 2012)
Win Vector: A New Way to Summarize One's Fighting Style in Online Games (NeurIPS 2019)
From AGI to ASI (arXiv, 2026, Google DeepMind)