캐서린 아넷

개요

캐서린 아넷(Catherine Arnett)은 비영리 AI 연구조직 EleutherAI의 NLP 연구원입니다. 다국어 NLP와 토크나이저 설계를 주요 연구 분야로 삼고 있으며, 저자원 언어를 위한 언어 모델과 데이터셋 공개 작업으로 알려져 있습니다. 2025년 UC San Diego에서 언어학 박사 학위를 취득했으며, 컴퓨테이셔널 사회과학 방향으로 특화된 훈련을 받았습니다.

EleutherAI는 영리 목적 없이 오픈소스 언어 모델 연구를 추진하는 비영리 연구 커뮤니티입니다. 아넷은 이 조직에서 다국어 데이터 품질과 토크나이저 공정성 문제를 다루는 연구를 수행하고 있습니다. 2025년부터 공식 연구원 직함을 유지하고 있으며, 이전에도 EleutherAI와 밀접한 협력 관계를 이어왔습니다.

생애

아넷은 언어학 전공자로서 NLP 연구에 진입한 경우입니다. 2019년부터 2025년까지 UC San Diego 언어학 박사 과정을 밟으며 컴퓨테이셔널 사회과학 특화 트랙을 이수했습니다. 박사 과정 중에도 EleutherAI와 협력하며 저자원 언어 관련 모델과 데이터셋을 공개했고, 졸업 후에는 Cambridge, MA를 기반으로 EleutherAI의 연구원으로 활동하고 있습니다.

언어 자체에 대한 관심이 NLP 연구로 이어진 배경은 자신의 인터뷰에서도 확인됩니다. 다국어 마인드셋이 모델 훈련 문제를 푸는 데 어떻게 도움이 되는지를 주제로 한 영상 강연에서 언어 구조의 다양성이 토크나이저 설계에 미치는 영향을 직접 설명한 바 있습니다.

업적

저자원 언어 모델링 분야에서 아넷의 대표 기여는 힌디어 모델 LilMoo와 벵골어 모델 LilTii입니다. 두 모델 모두 각 언어에 맞게 큐레이션한 데이터셋과 함께 배포되었습니다. 이 작업은 영어 중심 대형 언어 모델 생태계에서 소외된 언어권을 위한 기반 자원을 만드는 데 초점을 맞추고 있습니다.

2025년 COLM 학회 기간에는 Workshop on Multilingual Data Quality Signals(WMDQS) 1회 행사의 공동 조직자로 참여했습니다. 이 워크숍은 Common Crawl Foundation, MLCommons, EleutherAI, 존스홉킨스 대학교가 함께 주최했습니다. 다국어 데이터의 품질 지표와 신호를 논의하는 자리로, 다양한 언어권의 데이터 편향 문제를 다루는 데 목적이 있었습니다.

2025년에는 Cohere 및 Cohere Labs와 협력하여 ICML 워크숍에서 다양성 중심 데이터 선택과 다국어 사전 토크나이제이션 관련 논문을 발표했습니다. 2026년 3월에는 언어 모델의 개방성이 과학적 추론의 신뢰도에 미치는 영향을 다룬 프리프린트를 공개하기도 했습니다. 같은 해 손귀진이 1저자인 SOOHAK 한-영 이중언어 벤치마크 조직 팀에도 참여했습니다.

여담

아넷은 언어학과 NLP가 충분히 만나지 못하고 있다는 문제의식을 공개적으로 밝혀왔습니다. 많은 NLP 시스템이 영어의 형태론적 특성을 암묵적 가정으로 설계되어, 교착어나 성(gender)이 복잡한 언어에서 토크나이저가 단어를 비정상적으로 분절하는 문제가 발생한다는 점을 지적합니다.

EleutherAI 내에서도 그의 역할은 언어학적 배경을 갖춘 연구자가 드문 커뮤니티에서 특이한 위치로 여겨집니다. 대부분의 오픈소스 LLM 커뮤니티 연구자들이 컴퓨터과학 또는 수학 배경을 가진 반면, 아넷은 언어 구조 분석 훈련을 받은 언어학자입니다. 이 배경이 토크나이저 공정성 문제를 접근하는 시각에 직접 영향을 주고 있다고 볼 수 있습니다.

주요 논문

LilMoo 힌디어 모델 및 데이터셋 (EleutherAI, 공개)
LilTii 벵골어 모델 및 데이터셋 (EleutherAI, 공개)
Diversity-centric data selection (Cohere Labs, ICML 2025 워크숍)
Multilingual pretokenization (Cohere, ICML 2025 워크숍)
How Open Must Language Models be to Enable Reliable Scientific Inference? (프리프린트, 2026)