오마르 카탑

🏷️ 인물 LLM 오픈소스 교수 Star

개요

오마르 카탑(Omar Khattab)은 MIT EECS 및 CSAIL 조교수로, 신경망 정보 검색과 LM 프로그래밍 두 분야 모두에서 표준으로 자리잡은 연구를 만든 인물입니다. ColBERT와 DSPy라는 두 오픈소스 시스템이 그의 대표 작업으로, 각각 월 수백만 회 다운로드되는 커뮤니티를 형성하고 있습니다.

ColBERT는 멀티벡터 후기 상호작용(multi-vector late interaction) 패러다임을 도입해 신경망 검색의 지형을 바꾼 모델입니다. DSPy는 LM을 임시방편 프롬프트 엔지니어링 대신 조합 가능한 모듈과 자동 최적화로 다루는 선언적 프로그래밍 모델로, AI 시스템 개발 방식을 재정의하고 있습니다.

2025년 SIGIR Best Paper Award를 수상했으며, 같은 해 카네기멜런 대학교로부터 "Tartans on the Rise" 명예를 받았습니다.

생애

오마르 카탑은 스탠퍼드 대학교에서 마테이 자하리아(Matei Zaharia)와 크리스토퍼 포츠(Christopher Potts)의 지도 아래 박사학위를 받았습니다. 스탠퍼드 NLP 그룹에서 박사과정을 보내며 정보 검색과 언어 모델의 교차점에 집중했으며, 이 시기에 ColBERT와 DSPy의 핵심 아이디어를 개발했습니다.

박사 졸업 후에는 Databricks에서 리서치 사이언티스트로 일했습니다. Databricks는 데이터 엔지니어링과 AI 인프라를 다루는 회사로, 이곳에서의 경험은 DSPy를 실제 대규모 AI 파이프라인에 적용하는 방향을 발전시키는 데 도움이 됐습니다.

2025년 가을 MIT EECS 조교수로 임용됐습니다. MIT에서는 6.7960 Deep Learning(Sara Beery, Kaiming He 공동), 6.8610 Advanced NLP(Jacob Andreas, Chris Tanner 공동), 그리고 직접 개설한 6.S978 Engineering AI Systems & Agents를 가르치고 있습니다.

업적

오마르 카탑의 핵심 기여는 두 갈래로 정리됩니다. 하나는 ColBERT를 중심으로 한 신경망 검색의 체계화, 다른 하나는 DSPy로 대표되는 LM 프로그래밍 패러다임의 확립입니다.

ColBERT(2020)는 쿼리와 문서를 각각 토큰 수준 임베딩 벡터들로 표현한 뒤, 두 집합 간의 최대 유사도 합산으로 관련도를 계산하는 후기 상호작용 방식을 도입했습니다. ColBERTv2(2022)에서는 경량 후기 상호작용을 통해 성능을 유지하면서 저장 공간을 크게 줄였고, PLAID(2022)에서는 센트로이드 기반 상호작용으로 GPU에서 최대 7배, CPU에서 최대 45배의 검색 지연 시간 단축을 달성했습니다. 이 세 연구는 현대 신경망 검색 엔진의 사실상 표준이 됐습니다.

DSPy(ICLR 2024 Spotlight)는 LLM 파이프라인을 텍스트 변환 그래프로 추상화하고, 각 LM 호출을 선언적 모듈로 다루는 프로그래밍 모델입니다. 프롬프트를 손으로 작성하는 대신 컴파일러가 최적의 프롬프트와 파인튜닝 전략을 자동으로 찾아줍니다. DSPy 논문에서 최적화된 Llama-2 13B 모델이 GPT-3.5를 앞서는 결과를 보여주며 주목받았습니다.

Recursive Language Models 연구에서는 알렉스 장의 공동 지도교수로 참여했습니다. LLM이 자기 자신을 재귀적으로 호출하는 RLM 발상은, LM 호출을 코드로 조립한다는 DSPy의 문제의식을 추론 시점으로 확장한 것으로 볼 수 있습니다.

여담

오마르 카탑이 스탠퍼드 NLP 박사과정에서 ColBERT를 처음 발표했을 때, 후기 상호작용이라는 개념은 검색 커뮤니티에서 이색적인 아이디어로 여겨졌습니다. 이후 ColBERT 계열이 수많은 리더보드에서 최상위에 오르며 패러다임 자체가 바뀌었습니다.

DSPy는 단순한 프레임워크를 넘어 "LLM을 어떻게 프로그래밍할 것인가"라는 질문에 대한 체계적인 답안입니다. 다수의 기업과 연구실이 DSPy를 프로덕션 파이프라인에 도입했고, 이는 학술 연구가 실제 AI 시스템 개발 방식을 바꾼 드문 사례 중 하나입니다.

MIT 임용 후 신설한 6.S978 Engineering AI Systems & Agents 과목은 에이전트 시스템 설계와 LM 프로그래밍을 다루는 최신 커리큘럼으로, 학생들의 높은 관심을 받고 있습니다.

주요 논문