알리 베루즈

🏷️ 인물 딥러닝 LLM NeurIPS논문 Star

개요

알리 베흐루즈(Ali Behrouz)는 Cornell University 컴퓨터과학 박사과정 학생이자 Google Research 뉴욕 오피스(NYC) Algorithms and Optimization 팀 Student Researcher입니다. 장기 맥락 메모리, 연속 학습, 그래프 표현 학습, 그리고 계산 신경과학과 머신러닝의 교차 영역을 연구합니다.

2025년부터 Titans, Atlas, Miras, Nested Learning(Hope) 시리즈를 빠르게 연속 발표해 트랜스포머 이후 시퀀스 모델 아키텍처 분야에서 주목받았습니다. 특히 Titans 논문이 NeurIPS 2025에서 발표되고 Jeff Dean으로부터 "패러다임 전환 가능성이 있는 연구"라는 평가를 받으면서 폭넓은 관심을 끌었습니다. Cornell University 내외에서 연속 학습과 장기 기억 통합 문제를 메모리 시스템 관점에서 재정의한 연구자로 자리잡았습니다.

University of British Columbia(UBC) 컴퓨터과학 석사 학위를 취득한 뒤 Cornell University 박사과정에 진학했으며, 박사 재학 중 Google Research NYC 팀에 합류했습니다.

생애

알리 베흐루즈는 University of British Columbia에서 컴퓨터과학 석사 학위를 받았습니다. 이 기간에 그래프 신경망 및 표현 학습 관련 연구를 수행했습니다. 이후 Cornell University 컴퓨터과학 박사과정에 입학해 지도교수 아래 장기 맥락 처리와 연속 학습 문제를 본격적으로 탐구하기 시작했습니다.

박사과정 중 Google Research NYC Algorithms and Optimization 팀에서 Student Researcher로 활동하게 됩니다. 이 팀에서 바하브 미로크니를 비롯한 시니어 연구자들과 협력하면서 메모리 모듈 연구가 급속히 구체화되었습니다. 2025년 초 Titans 논문을 arXiv에 공개하고 NeurIPS 2025에서 정식 발표한 것이 연구 경력의 전환점이 되었습니다.

2025년부터 2026년 초 사이에 Titans, Atlas, Miras, Nested Learning을 연속 발표하면서 단기간에 다수의 주요 논문을 내놓는 드문 사례가 되었습니다. Cognitive Revolution 팟캐스트 등 기술 미디어에서도 인터뷰 대상으로 주목받았습니다.

업적

알리 베흐루즈의 첫 번째 핵심 기여는 Titans 아키텍처입니다. "테스트 시에 기억하는 법을 학습하는" 장기 기억 모듈을 도입해, 트랜스포머의 컨텍스트 윈도우 한계를 넘어 2M 이상의 컨텍스트 스케일에서도 작동하는 시퀀스 모델을 제안했습니다. 같은 컨텍스트 윈도우 기준 트랜스포머를 능가하고, 전체 컨텍스트를 사용하는 트랜스포머와 경쟁력 있는 성능을 보였습니다. NeurIPS 2025에서 발표되었습니다.

두 번째 기여는 Atlas 논문입니다. 테스트 시점에서 컨텍스트를 최적으로 기억하는 방법을 정형화해, Titans에서 제시한 메모리 모듈 개념을 이론적으로 심화했습니다.

세 번째 기여는 Miras 프레임워크입니다. Attention bias, retention, online optimization을 통합한 일반화 프레임워크로, 다양한 시퀀스 모델 아키텍처를 단일 관점으로 포괄할 수 있습니다.

네 번째이자 가장 포괄적인 기여는 Nested Learning(NeurIPS 2025 채택)입니다. 최적화 알고리즘과 아키텍처를 하나의 중첩(nested) 시스템으로 통합해, 각 레이어가 서로 다른 주기로 업데이트되는 자기수정 구조를 제안합니다. 이를 바탕으로 구현된 Hope 모델은 장기 기억 및 연속 학습 태스크에서 Titans, 트랜스포머, Samba를 모두 능가하는 성능을 보였습니다.

여담

알리 베흐루즈의 연구 동기는 인간 뇌의 기억 통합 메커니즘에서 출발합니다. 단기 기억이 수면 중 해마 재활성화를 통해 장기 기억으로 전환된다는 신경과학적 이론에서 영감을 얻어, 트랜스포머의 고정 컨텍스트 윈도우 방식을 생물학적 기억 구조로 대체하려는 시도를 이어왔습니다.

Nested Learning 논문에 대해 Jeff Dean이 공개적으로 "패러다임 전환 가능성"을 언급한 것은 연구자 커뮤니티 내에서 화제가 되었습니다. 베흐루즈 본인은 이 논문이 단순한 아키텍처 제안을 넘어 "딥러닝 아키텍처가 실은 최적화 알고리즘의 특수한 형태"라는 주장을 담고 있다고 강조합니다.

바하브 미로크니, 중페이린, 메이삼 라자비얀 등 Google Research NYC 팀과의 협력이 연구 속도를 높이는 데 크게 기여했습니다.

주요 논문