피터 아베일

개요

피터 아베일(Pieter Abbeel)은 UC 버클리 전기공학·컴퓨터과학과 정교수이자 로봇 학습 연구소(Robot Learning Lab, RLL)의 디렉터입니다. 모방 학습, 강화학습, 메타러닝을 결합해 로봇이 인간의 시연으로부터 복잡한 기술을 습득하도록 가르치는 연구의 선구자로 평가받습니다.

2021년 ACM 컴퓨팅상(ACM Prize in Computing)을 수상했으며, 수상 이유는 "시연을 통한 학습 및 로봇 제어를 위한 심층 강화학습에 대한 기여"입니다. 현재는 AI 로봇 기업 Covariant의 공동 창업자 겸 사장·최고과학책임자(CSO)로서 학문 성과를 산업 현장에 접목하는 일을 병행합니다.

2026년에는 UC 버클리 공과대학의 AI 리더십 액셀러레이터 프로그램 교수 디렉터로 참여하는 등 차세대 AI 리더 양성에도 힘쓰고 있습니다.

생애

피터 아베일은 벨기에 출신으로, 루뱅 카톨릭대학교(KU Leuven)에서 전기공학 학사 학위를 받았습니다. 이후 미국으로 건너가 스탠퍼드대학교에서 컴퓨터과학 석사 및 박사 학위를 취득했습니다. 박사 지도교수는 앤드류 응이었으며, 2008년 완성한 박사 논문 제목은 "Apprenticeship Learning and Reinforcement Learning with Application to Robotic Control"입니다.

박사 과정 중 자율 헬리콥터 곡예 비행 프로젝트를 수행하여 강화학습과 최적 제어의 결합 가능성을 실제로 입증했습니다. 틱톡(tic-toc), 카오스(chaos), 자동 회전(auto-rotation) 등 최상위 인간 조종사만 구사할 수 있는 기동을 헬리콥터에게 가르치는 데 성공해 학계의 큰 주목을 받았습니다.

2008년 UC 버클리 교수로 임용된 뒤 로봇 세탁물 접기, 외과 수술 봉합 등 복잡한 조작 과제에 모방 학습을 적용하는 연구를 이어갔습니다. 2017년 테뉴어를 취득하며 정교수가 되었고, 같은 해 박사 과정 학생들과 함께 Covariant(당시 Embodied Intelligence)를 공동 창업했습니다.

업적

아베일의 핵심 기여는 견습 학습(apprenticeship learning)과 역강화학습(inverse reinforcement learning)의 이론적·실용적 토대를 닦은 것입니다. 2004년 앤드류 응과 함께 발표한 "Apprenticeship Learning via Inverse Reinforcement Learning"은 에이전트가 전문가의 시연에서 보상 함수를 역산하여 복잡한 행동을 습득하는 방법론을 제시한 선구적 연구로, 이후 모방 학습 분야 전체에 영향을 미쳤습니다.

신뢰 영역 정책 최적화(TRPO)와 소프트 액터-크리틱(SAC) 알고리즘의 공동 개발자로도 알려져 있습니다. TRPO와 SAC는 오늘날 휴머노이드 로봇의 보행 능력 연구와 RLHF(인간 피드백 기반 강화학습)의 핵심 알고리즘으로 폭넓게 쓰입니다. 모델-불가지론 메타러닝(MAML) 알고리즘 역시 Chelsea Finn, 서게이 레빈과 함께 제안한 연구로, 적은 데이터로 빠르게 새 과제에 적응하는 메타러닝 패러다임을 정립했습니다.

확산 모델(diffusion model) 분야에도 초기 기여가 있습니다. 아베일 연구실에서 나온 확산 모델 관련 연구는 오늘날 이미지·영상 생성 모델의 근간을 이루는 기법 발전에 영향을 주었습니다. Covariant에서는 이러한 학문적 성과를 산업용 로봇 물류 자동화에 실제로 적용하고 있습니다.

여담

아베일은 연구뿐만 아니라 교육에도 열정을 보입니다. Coursera에 개설한 강화학습 및 딥러닝 관련 강의는 전 세계 수십만 명의 수강생을 끌어모았고, 유튜브 채널 "Spinning Up in Deep RL" 관련 강연 등을 통해 AI 교육 저변 확대에 기여하고 있습니다.

공동 창업한 Covariant는 창업 후 물류·창고 자동화 분야에서 빠르게 성장했습니다. 피킹 로봇에 심층 강화학습을 적용해 복잡한 형태의 물건도 높은 정확도로 집어낼 수 있는 시스템을 상용화했습니다. Covariant의 성공은 학계 강화학습 연구가 실제 산업 현장에서 작동할 수 있음을 보여준 대표 사례로 자주 거론됩니다.

앤드류 응의 제자라는 점도 흥미로운 연결 고리입니다. 아베일 본인도 Chelsea Finn, 서게이 레빈 등 이후 AI 분야에서 중요한 역할을 하는 연구자들을 배출했습니다. CS229 강의 20장에서는 자율 헬리콥터 프로젝트 관련 내용으로 언급됩니다.

주요 논문

Apprenticeship Learning via Inverse Reinforcement Learning (ICML 2004) -- 앤드류 응과 공동. 역강화학습 기반 모방 학습의 선구적 연구.
An Application of Reinforcement Learning to Aerobatic Helicopter Flight (NeurIPS 2006) -- 헬리콥터 곡예 비행에 강화학습을 적용한 실증 연구.
Learning to Search Efficiently in High Dimensions (NeurIPS 2011) -- 고차원 공간에서의 효율적 탐색 학습.
Trust Region Policy Optimization (TRPO) (ICML 2015) -- 존 슐만, 서게이 레빈과 공동. 정책 최적화의 안정성을 높인 핵심 알고리즘.
Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization (ICML 2016) -- 심층 역최적 제어 기반 비용 함수 학습.
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks (MAML) (ICML 2017) -- Chelsea Finn, 서게이 레빈과 공동. 범용 메타러닝 알고리즘.
One-Shot Imitation Learning (NeurIPS 2017) -- 단 한 번의 시연만으로 로봇이 과제를 수행하는 방법.
Soft Actor-Critic (SAC) (ICML 2018) -- 투오마스 하르놀라와 공동. 연속 행동 공간에서의 최대 엔트로피 강화학습.
Learning Dexterous In-Hand Manipulation (IJRR 2020) -- 손가락 조작 기술 학습 관련 실증 연구.
Denoising Diffusion Probabilistic Models (NeurIPS 2020) -- 확산 모델 기반 생성 모델링의 핵심 선행 연구.