아카리 아사이

개요

아카리 아사이(Akari Asai)는 검색 보강 언어모델(Retrieval-Augmented Language Models) 분야의 대표 연구자입니다. 워싱턴대학교 Paul G. Allen School에서 하나네 하지시르지(Hannaneh Hajishirzi) 교수의 지도로 NLP 박사 학위를 취득했습니다. 2025년부터 2026년까지 앨런 AI 연구소(Allen Institute for AI)에서 OLMo 프로젝트 연구과학자로 재직했으며, 2026년 가을부터 카네기멜런대학교 언어기술연구소(LTI) 조교수로 부임합니다.

Self-RAG 논문으로 검색 보강 생성의 개념적 틀을 한 단계 끌어올렸다는 평가를 받습니다. MIT Technology Review의 "Innovators Under 35 Japan"에 선정되었고, EECS Rising Stars 2022에도 이름을 올렸습니다. IBM Global Fellowship을 비롯해 다수의 산학 연구 지원을 받았습니다.

생애

일본 출신으로, 워싱턴대학교 컴퓨터과학과 박사과정에서 NLP 그룹 소속으로 연구를 이어왔습니다. 박사 논문 제목은 "Beyond Scaling: Frontiers of Retrieval-Augmented Language Models"로, 단순한 파라미터 확장을 넘어 검색 메커니즘이 언어모델의 한계를 보완하는 방식을 체계적으로 논증합니다.

대학원 재학 중 ACL, NAACL, NeurIPS, ICLR 등 주요 학회에 다수의 논문을 발표했으며, 여러 학회에서 최우수 논문 및 Outstanding Paper 상을 수상했습니다. ACL 2023에서는 검색 보강 언어모델을 주제로 첫 튜토리얼을 공동 조직하며 커뮤니티 활동에도 적극 참여했습니다. 2025년에는 NAACL 워크숍 "Knowledge-Augmented NLP"를 공동 주최했습니다.

박사 과정을 마친 뒤 앨런 AI 연구소에서 오픈소스 언어모델 프로젝트 OLMo에 합류했으며, 2026년 가을 카네기멜런대학교 조교수로 임용되어 새로운 연구 그룹을 이끌게 됩니다.

업적

가장 널리 알려진 기여는 Self-RAG 프레임워크입니다. Self-RAG는 언어모델이 매 생성 단계에서 검색이 필요한지 스스로 판단하고, 검색된 문서와 자신의 출력 결과를 "반성 토큰(reflection token)"으로 비판·재고하도록 학습시킵니다. 기존 RAG 방식이 무조건 외부 문서를 주입하는 것과 달리, 모델이 검색의 필요성 자체를 내부적으로 결정한다는 점에서 설계 철학이 다릅니다. ICLR 2024 Oral(상위 1%)로 채택되었으며, 7B 및 13B 규모에서 ChatGPT와 RAG-Llama2-chat을 오픈 도메인 QA, 추론, 사실 검증 태스크에서 능가했습니다.

2025년에는 39개 언어를 지원하는 다국어 멀티모달 LLM "Pangea"를 공동 저술해 ICLR 2025에 발표했습니다. 같은 해 NAACL 2025에는 RAG의 언어 변형 취약성을 분석한 논문("Out of Style: RAG's Fragility to Linguistic Variation")도 발표했습니다. 이처럼 검색 보강 LM의 강건성과 다국어 확장성이라는 두 방향을 동시에 탐구하고 있습니다.

2026년에는 손귀진이 1저자인 SOOHAK 벤치마크 조직 팀에 합류하기도 했습니다. 이 벤치마크에서 기여자들이 "Self-RAG류 검색 보강 LM이 단일 논문 기반 문제를 더 이상 어렵지 않게 만들었다"고 보고한 대목은, 그녀의 연구가 벤치마크 설계의 기준선 자체를 끌어올린 결과로 읽을 수 있습니다.

여담

본인 웹사이트(akariasai.github.io)에 코드, 데모, 발표 자료를 꾸준히 공개하는 것으로 알려져 있습니다. 커뮤니티 서비스를 강조하는 연구자로, 검색 보강 LM 튜토리얼과 다국어 NLP 워크숍 조직을 병행하며 연구 외 활동을 이어왔습니다.

MIT Technology Review Innovators Under 35 Japan 수상 이후 일본어권 미디어와의 인터뷰도 여러 차례 진행했습니다. 일본 출신 연구자로서 저자원 언어 및 다국어 NLP에 각별한 관심을 가지고 있으며, 이는 Pangea 프로젝트 참여로도 이어졌습니다.

카네기멜런대학교 임용은 LTI 내 머신러닝 학과와의 겸직 임용으로, 검색·추론·다국어를 아우르는 독립적인 연구 그룹을 꾸릴 것으로 기대됩니다.

주요 논문

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection (ICLR 2024 Oral)
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages (ICLR 2025)
Out of Style: RAG's Fragility to Linguistic Variation (NAACL 2025)
Context-Efficient Retrieval with Factual Decomposition (2025)
FLARE: Active Retrieval Augmented Generation
ODQA with Dense-Sparse Hybrid Retrieval
BioASQ 관련 다국어 생의학 QA 연구 다수