2026. 05. 이달의 인물 - Ali Behrouz, Zewen Chi

🏷️ 잡담

5월의 AI 연구는 두 개의 큰 축 위에서 움직였습니다. 하나는 "딥러닝 아키텍처와 옵티마이저가 사실 같은 것"이라는 오래된 직관을 형식화하는 작업이었고, 다른 하나는 단일 LLM이 스스로 자기 사고를 조직화하는 에이전트 패러다임이었습니다. 두 흐름 모두 "지금까지 우리가 당연하게 봐온 것을 다시 보자"는 질문에서 출발합니다.

알리 베루즈

알리 베루즈는 Cornell University 컴퓨터과학 박사과정 학생이자 Google Research NYC Algorithms and Optimization 팀의 Student Researcher입니다. 사람의 뇌에서 해마가 기억을 처리하는 방식에서 영감을 얻어, 트랜스포머 이후의 시퀀스 모델 아키텍처를 새로운 시각으로 정리해 왔습니다. 2025년부터 Titans, Atlas, Miras로 이어지는 메모리 모듈 연구 시리즈를 빠르게 발표한 뒤, 5월에 그 흐름을 메타 레벨에서 묶는 Nested Learning을 NeurIPS 2025 논문으로 블로그에 소개했습니다.

Nested Learning - The Illusion of Deep Learning Architectures

딥러닝 10년의 발전은 아키텍처와 옵티마이저라는 두 축을 따로 굴려왔습니다. 트랜스포머는 아키텍처이고, AdamW는 옵티마이저입니다. 두 시스템은 설계 단에서부터 분리된 채로 다뤄졌습니다.

Nested Learning은 이 분리가 환상이라고 주장합니다. 논문의 출발점은 두 가지 관찰입니다. 첫째, 뇌는 균일하고 재사용 가능한 구조를 가집니다. 한쪽 반구를 제거하는 hemispherectomy 수술 후에도 환자가 거의 정상적인 인지 기능을 유지한다는 임상 사례가 증거입니다. 둘째, 뇌의 각 부분은 서로 다른 시간 척도로 정보를 처리합니다. Gamma 파는 감각 정보를 통합하고, Delta-Theta 파는 기억 통합을 담당하는 식으로, 주파수(빈도)가 역할을 가릅니다.

이 두 관찰을 머신러닝 모델에 옮기면 "균일한 구조의 모듈들이 서로 다른 빈도로 업데이트되는 시스템"이 됩니다. 트랜스포머의 self-attention은 매 토큰마다 캐시를 갱신하니 빈도 무한대이고, MLP 가중치는 사전학습 동안만 업데이트되니 빈도가 사실상 0입니다. 모멘텀 옵티마이저는 그 사이 어딘가에 있습니다. 이 빈도 스펙트럼 위에서 보면 아키텍처와 옵티마이저가 사실 같은 종류의 객체, 즉 "자기 자신의 컨텍스트 흐름을 압축하는 연상 기억(associative memory) 모듈"임을 알 수 있다는 것이 논문의 핵심 주장입니다.

이 형식화로부터 두 가지 설계 방향이 자연스럽게 따라옵니다. 먼저 Deep Optimizers입니다. 모멘텀 옵티마이저를 연상 기억으로 보면, 더 강한 메모리 관리 능력을 갖춘 학습 규칙을 설계할 수 있습니다. Delta Gradient Descent는 그래디언트 디센트의 내부 목적 함수를 L2 회귀 손실로 바꿔 토큰 간 상관관계를 반영하고, Multi-scale Momentum Muon(M3)은 빠른 모멘텀과 느린 모멘텀을 각자 다른 빈도로 굴려 장기와 단기 신호를 함께 잡습니다. 다음으로 Continuum Memory System(CMS)입니다. 기존 트랜스포머가 short-term(attention)과 long-term(MLP) 둘만 두던 이분법을 연속적인 스펙트럼으로 일반화합니다. 서로 다른 빈도로 업데이트되는 MLP 블록들의 체인을 만들어, 한 블록에서 망각이 일어나도 다른 빈도 블록에 같은 지식이 남아 역전파로 회복할 수 있게 합니다. Hope 아키텍처는 이 둘을 Titans 위에 얹은 자기 수정 시퀀스 모델로, 1.3B 파라미터 + 100B 토큰 규모에서 트랜스포머, Titans, Samba보다 높은 평균 정확도를 보였고 10M 컨텍스트까지 성능을 유지했습니다.

선정 이유

알리 베루즈는 Titans(2025) 이후 같은 해 안에 Atlas, Miras, Nested Learning을 연속 발표하며 단일 연구자 기준으로는 드물게 빠른 속도로 메모리 모듈 시리즈를 쌓아올렸습니다. Nested Learning이 NeurIPS 2025에 accept된 직후 Google Research가 공식 블로그에 Titans+MIRAS 소개 포스트를 올리고, X에서 후속 토론이 이어졌으며, 5월에 이 블로그에 논문 리뷰가 올라가면서 한 달 안에 여러 경로로 버즈가 집중됐습니다. 더 중요한 것은 그의 연구 궤적이 하나의 일관된 물음 위에 있다는 점입니다. "아키텍처와 옵티마이저가 사실 하나라면, 우리는 지금까지 두 번 일한 것인가?" 이 물음은 트랜스포머 이후 아키텍처 탐색이 활발해지는 현재 시점에 유독 날카롭게 들립니다.

치쩌원

치쩌원는 Microsoft Research GenAI 그룹의 연구원으로, 베이징이공대(BIT) 박사를 2024년에 마친 뒤 곧장 MSR 정규직으로 합류했습니다. 박사 과정 중 둥리과 웨이푸루의 지도 아래 다국어 인코더(InfoXLM)와 멀티모달 LLM(Kosmos-1)에 공저자로 참여했고, 졸업 후에는 라인을 "agentic LLM과 inference-time scaling"으로 명시적으로 옮겼습니다. 5월에 블로그에 소개된 The Era of Agentic Organization - Learning to Organize with Language Models가 그 첫 정식 결과물입니다.

The Era of Agentic Organization - Learning to Organize with Language Models

LLM 추론 패러다임은 두 갈래로 정착해 있었습니다. sequential thinking은 추론 품질이 좋지만 지연이 선형으로 늘어나고, parallel thinking은 지연을 줄이지만 사고 구조가 사전에 고정되어 적응성이 없습니다. 두 갈래 모두 "사고를 어떻게 쪼갤지"를 모델 밖에서 사람이 결정합니다.

AsyncThink는 이 결정을 모델 안으로 가져옵니다. 단일 LLM에 organizer와 worker라는 두 역할을 동시에 부여하는 방식입니다. 같은 가중치, 같은 자기회귀 텍스트 디코딩을 쓰되, organizer는 Fork 액션으로 worker에게 sub-query를 비동기 위임하고, Join으로 결과를 받아 컨텍스트에 붙이며, Answer로 추론을 종료합니다. worker는 자기 sub-query만 보고 RETURN으로 끝납니다. organizer의 글로벌 컨텍스트와는 격리되어 독립적으로 실행됩니다. 별도의 라우터나 조정 모듈이 없습니다. ⟨FORK-i⟩와 ⟨JOIN-i⟩ 태그를 텍스트로 뱉는 것 자체가 액션입니다.

학습은 두 단계입니다. 먼저 GPT-4o로 organizer-worker 형식의 사고 트레이스를 합성해 cold-start fine-tuning을 진행합니다. 이 단계가 끝난 모델은 형식만 흉내내는 수준이고, 실제로 사고 구조를 질의에 맞게 분해하는 능력은 다음 단계에서 RL로 학습합니다. GRPO를 organizer-worker 구조에 맞게 확장한 Organizer-Worker Policy Optimization을 씁니다. reward는 정확도, 형식 오류 페널티, 그리고 thinking concurrency ratio(실제로 동시에 굴러간 worker 비율)의 세 종류로 구성됩니다. concurrency를 reward에 직접 포함한 것이 핵심입니다. 단순히 정답만 맞히는 게 아니라 "실제로 병렬로 생각했는가"를 학습 신호로 삼기 때문입니다.

결과는 뚜렷합니다. Multi-Solution Countdown 태스크에서 네 해를 모두 찾는 All Correct 기준으로 AsyncThink가 89.0%를 기록했고, parallel thinking(68.6%)과 sequential thinking(70.5%) 모두를 크게 앞섰습니다. 추론 지연은 parallel 대비 28% 줄었습니다. 더 중요한 것은 학습 중 보지 않은 태스크에서도 비동기 사고 패턴이 zero-shot으로 일반화됐다는 점입니다.

선정 이유

치쩌원는 MSR Asia 인턴 라인에서 정규직으로 전환되는 전형적인 경로를 밟았지만, 본인 라인을 "agentic LLM"으로 명시적으로 재정의한 이후 첫 결과물이 5월에 나온 시점이 의미 있습니다. 웨이푸루와 둥리이 그룹 전체를 "대규모 사전학습에서 agentic LLM으로" 옮기는 흐름 속에서, AsyncThink는 그 전환의 첫 번째 가시적 벤치마크로 읽힙니다. organizer-worker 프로토콜이 복잡한 외부 조정 없이 단일 LLM의 텍스트 디코딩만으로 구현된다는 단순함은, 현재 멀티에이전트 프레임워크들이 점점 무거워지는 흐름에 역행하면서도 결과는 앞서는 역설을 잘 보여줍니다.

두 연구자는 서로 다른 층위에서 같은 질문을 던지고 있습니다. 아키텍처와 옵티마이저를 구분하던 경계를 허물거나(Nested Learning), 추론 구조를 모델 밖이 아니라 모델 안에서 결정하게 하거나(AsyncThink). 5월의 AI 연구가 "당연하게 분리해 왔던 것을 다시 하나로 모으는" 방향으로 움직이고 있다는 신호를 이 두 논문이 함께 보내고 있습니다.