피에르 세르마네

개요

피에르 세르마네(Pierre Sermanet)는 프랑스 출신의 컴퓨터 비전 및 로보틱스 연구자로, 2014년 OverFeat 논문의 1저자이자 현재 Google DeepMind Embodied Reasoning 팀의 리서치 사이언티스트입니다. 합성곱 신경망 기반 이미지 인식 연구에서 출발해 자기지도 학습 기반 로봇 정책 학습, 그리고 LLM과 로봇의 결합으로 이어지는 일관된 연구 궤적을 가집니다.

2025년에는 로봇 헌법(robot constitutions)을 자동 생성하고 이를 ASIMOV 벤치마크로 평가하는 연구를 발표했으며, Gemini Robotics 기술 보고서의 공저자로도 참여하는 등 Google DeepMind의 로봇 지능 연구에서 핵심 역할을 하고 있습니다.

생애

세르마네는 NYU Courant Institute에서 얀 르쿤의 지도로 2014년 1월 박사 학위를 받았습니다. 박사 논문 제목은 "A Deep Learning Pipeline for Image Understanding and Acoustic Modeling"이며, 박사 과정 중 발표한 교통 표지 인식(IJCNN 2011, GTSRB 우승)과 비지도 다단계 특징 학습 기반 보행자 검출(CVPR 2013) 연구가 이후 OverFeat의 설계로 직접 이어졌습니다.

박사 졸업 직후 Google Brain 로보틱스 그룹에 합류했습니다. 2024년 Google Brain과 DeepMind가 통합되면서 Google DeepMind 소속이 되었습니다. 현재는 런던과 마운틴뷰를 오가며 Embodied Reasoning 팀에서 로봇 안전성과 정책 학습 연구를 이끕니다. 프린스턴 University와 협업하는 연구 그룹에도 참여하고 있습니다.

업적

세르마네의 초기 대표 성과는 OverFeat(ICLR 2014)입니다. 분류, 위치 추정, 검출 세 작업을 하나의 합성곱 신경망으로 통합하고, "합성곱 연산이 곧 슬라이딩 윈도우 평가다"라는 통찰로 다중 스케일 이미지 이해의 효율성을 크게 높였습니다. 이 작업으로 ILSVRC 2013 위치 추정 부문에서 우승하였습니다.

Google Brain 합류 후의 대표 연구는 Time-Contrastive Networks(CoRL 2017)입니다. 사람의 시연 영상에서 자기지도 방식으로 로봇 정책을 학습하는 프레임워크를 제안한 이 연구는, 인간의 레이블링 없이도 로봇이 행동 표현을 학습할 수 있음을 보였습니다. 이는 이후 SayCan 같은 LLM-로봇 결합 연구의 선구적 작업으로 평가받습니다.

2025년에는 "Generating Robot Constitutions and Benchmarks for Semantic Safety"를 CoRL 2025에 발표했습니다. 실제 데이터에서 로봇 행동 규범(robot constitution)을 자동 생성하고, 자동 수정(auto-amending) 프로세스로 규칙을 세밀화하는 방법을 제안했습니다. ASIMOV 벤치마크에서 생성된 헌법이 인간이 작성한 헌법과 기준 없는 경우를 모두 앞서는 84.3%의 정렬률을 달성했습니다. Gemini 2.5 로보틱스 작업에도 기여했으며, ICML 2025에서는 확산 모델을 이용한 최대 엔트로피 매니폴드 탐색 연구도 발표했습니다.

여담

세르마네의 경력은 컴퓨터 비전과 로보틱스 사이의 자연스러운 연속성을 보여주는 사례입니다. OverFeat에서의 슬라이딩 윈도우 합성곱 통찰은, 이후 로봇이 시각 입력을 처리해 행동으로 연결하는 연구에서도 같은 철학을 유지합니다. "보는 것에서 행동하는 것으로"라는 방향성이 그의 연구 전반을 관통합니다.

로봇 헌법 연구는 LLM의 Constitutional AI와 직접 유사한 개념을 로봇 물리적 행동에 적용한 작업입니다. 텍스트 모델에서 시작된 안전 정렬 개념이 물리 세계의 로봇으로 확장되는 흐름에서 세르마네가 이 다리를 연구적으로 건너고 있다는 점이 흥미롭습니다.

주요 논문

"OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks" (ICLR, 2014) - 분류·위치·검출 통합, ILSVRC 2013 위치추정 우승
"Time-Contrastive Networks: Self-Supervised Learning from Video" (CoRL, 2017) - 자기지도 로봇 정책 학습
"Generating Robot Constitutions and Benchmarks for Semantic Safety" (CoRL, 2025) - 로봇 헌법 자동 생성, ASIMOV 벤치마크
"Gemini Robotics: Bringing AI into the Physical World" (arXiv, 2025) - Google DeepMind 로봇 지능 종합 보고서
"Provable Maximum Entropy Manifold Exploration via Diffusion Models" (ICML, 2025) - 확산 모델 기반 최대 엔트로피 탐색
"Unsupervised Learning of Visual Representations using Videos" (ICCV, 2015) - 비디오 기반 비지도 시각 표현 학습
"Pedestrian Detection with Unsupervised Multi-Stage Feature Learning" (CVPR, 2013) - 비지도 다단계 보행자 검출