2025. 11. 이달의 인물 - Randall Balestriero, Furu Wei

🏷️ 잡담

11월의 AI 연구 씬은 두 가지 결이 교차했습니다. 한쪽에서는 수십 년간 경험적으로 쌓아올린 자기 지도 학습의 관행에 수학이 드디어 명시적인 근거를 달았고, 다른 한쪽에서는 접근조차 할 수 없는 거대 모델의 능력을 GAN 구조로 훔쳐오는 증류 기법이 조용하지만 실용적인 방식으로 이목을 끌었습니다.

Randall Balestriero

Randall Balestriero는 Brown University 컴퓨터과학과 조교수입니다. Rice University에서 박사 학위를 마친 뒤 Meta AI Research(FAIR)에서 Yann LeCun과 함께 박사후 연구를 수행했고, Citadel GQS에서 금융 시계열 연구를 거쳐 2024년부터 Brown에 자리를 잡았습니다. 딥 네트워크의 이론적 기초, 세계 모델, 자기 지도 학습이 그의 핵심 연구 영역입니다.

11월에는 Yann LeCun과 공동으로 LeJEPA 논문을 발표했습니다. 자기 지도 학습 분야에 오래 쌓여 있던 임시방편들을 이론으로 녹여낸 작업입니다.

LeJEPA Provable and Scalable Self-Supervised Learning Without the Heuristics

자기 지도 학습(self-supervised learning)은 지난 5년 동안 컴퓨터 비전의 사전 학습 방법론을 빠르게 재편했습니다. 그런데 성능이 좋은 방법들을 뜯어보면 공통적으로 불편한 구석이 있었습니다. Stop-gradient, teacher-student 쌍, momentum encoder처럼 "왜 이게 필요한지"를 엄밀하게 설명하기 어려운 설계 선택들이 쌓여 있었습니다. 표현 붕괴(representation collapse)를 막기 위해 도입된 것들인데, 이것이 왜 작동하는지 이론적 근거가 없다 보니 새 아키텍처나 새 도메인에 적용할 때마다 하이퍼파라미터 탐색을 처음부터 반복해야 했습니다.

LeJEPA가 제안하는 해법의 출발점은 하나의 수학적 명제입니다. "JEPA 목표를 최소화하면서 동시에 하위 예측 위험(downstream prediction risk)을 최소화하는 최적 임베딩 분포는 등방성 가우시안(isotropic Gaussian)이다." 이를 증명한 뒤, 실제 학습 과정에서 임베딩이 그 분포를 따르도록 유도하는 정규화 목표 함수 SIGReg(Sketched Isotropic Gaussian Regularization)를 도입합니다. SIGReg는 임베딩의 공분산 행렬이 단위 행렬에 가까워지도록 스케치 기반의 근사로 강제합니다. 정확한 공분산 계산은 배치 크기에 제곱으로 비용이 늘지만, 스케치 기반 근사를 쓰면 선형 시간과 메모리로 처리할 수 있습니다.

이 정규화를 JEPA의 예측 손실에 더한 것이 LeJEPA의 전부입니다. 구현 코드는 50줄 남짓이고, ResNet, ViT, ConvNet 등 60개 이상의 아키텍처에서 하이퍼파라미터 조정 없이 안정적으로 동작했습니다. ImageNet-1K에서 ViT-H/14 기준으로 79%를 달성했고, 소규모 도메인 데이터셋(Galaxy10 등)에서는 DINOv2를 넘어섰습니다. 기존 방법들이 "이 설정에서는 이 값으로 조정하라"는 경험칙을 요구하는 것과 달리, LeJEPA는 이론이 그 선택을 대신합니다.

선정 이유

Randall Balestriero는 FAIR 박사후 연구 시절부터 Yann LeCun이 강하게 밀어왔던 JEPA 방향에서 수학적 정당화 작업을 꾸준히 해왔습니다. LeJEPA는 그 누적의 결과입니다. 신진 교수가 세계 최상위 연구자와 공동 저술하여 분야의 오래된 경험적 관행을 이론으로 교체했다는 점, 그리고 그 결과가 50줄 코드로 재현 가능한 형태로 공개되었다는 점이 11월 한 달의 논문 중 가장 선명한 기여로 보입니다.


Furu Wei

Furu Wei는 Microsoft Research Asia의 Distinguished Scientist 겸 부사장으로, MSR Asia의 GenAI 그룹 총괄입니다. UniLM, MiniLM, BEiT, Kosmos, WavLM 등 2019년 이후 MSR Asia를 대표하는 사전 학습 모델 시리즈 대부분에 시니어 저자로 이름이 올라 있으며, Li Dong과 함께 이 그룹의 방향을 사실상 공동으로 설정해 왔습니다. 11월에는 블랙박스 증류 논문으로 다시 주목받았습니다.

Black-Box On-Policy Distillation of Large Language Models

지식 증류(knowledge distillation)는 큰 모델의 능력을 작은 모델로 옮기는 기법입니다. 전통적인 방식은 교사 모델의 출력 로짓(logit) 분포를 학생 모델이 모방하는 구조인데, GPT 계열이나 Gemini처럼 API로만 제공되는 모델들은 로짓을 공개하지 않습니다. 텍스트 출력만 볼 수 있는 블랙박스 환경에서 기존 증류 방법들은 사실상 무용지물이었습니다.

이 논문이 제안하는 GAD(Generative Adversarial Distillation)는 문제를 GAN 구조로 다시 씁니다. 학생 LLM이 생성자(generator) 역할을 맡고, 별도의 판별자(discriminator)가 주어진 프롬프트에 대한 교사 응답과 학생 응답을 구분합니다. 학생은 판별자가 구분하지 못할 정도로 교사를 따라하도록 학습되고, 이 과정에서 학생 자신이 생성한 응답(온폴리시 데이터)으로 학습이 이루어집니다. 오프폴리시 정제 데이터에 의존하는 SFT 기반 방법과의 결정적 차이입니다.

실험에서는 LMSYS-Chat 데이터로 Qwen2.5-14B-Instruct와 Llama3 계열 모델들을 증류했고, 14B 파라미터 학생 모델이 교사인 GPT-5-Chat에 필적하는 성능을 자동 평가에서 달성했습니다. 특히 분포 외(out-of-distribution) 데이터에서 일반화 성능이 좋았는데, 이는 학생이 특정 응답 패턴을 외우는 대신 교사의 응답 스타일 자체를 흉내내는 방식으로 학습되기 때문입니다.

선정 이유

Furu Wei 라인의 연구는 사전 학습 대형 모델을 만드는 일 못지않게, 그 모델의 능력을 실용 가능한 크기로 옮기는 방법에도 오랫동안 집중해왔습니다. GAD는 그 연장선에서, 이제 API 뒤에 숨어버린 최상위 모델들에도 증류 파이프라인을 뚫을 수 있다는 것을 보여줍니다. 이론적 정교함보다는 현실적인 문제 해결에 방점이 있는 연구이고, 오픈소스 생태계가 클로즈드 모델을 따라잡는 방식이 점점 다양해지는 흐름 안에 정확히 놓여 있습니다.

11월은 자기 지도 학습에 이론이 도착한 달이었고, 동시에 블랙박스 장벽을 우회하는 실용적인 증류 방법이 등장한 달이기도 합니다. 두 방향은 표면상 다르지만 같은 목적을 향합니다. 더 작고, 더 접근 가능하고, 더 근거 있는 모델을 만들자는 것입니다.