마르턴 삽

개요

마르턴 삽(Maarten Sap)은 카네기멜런대학교(CMU) Language Technologies Institute(LTI) 조교수이자 Allen Institute for AI(AI2)의 AI 안전 수석 연구 과학자입니다. NLP 시스템에 사회적 지능을 부여하는 연구와 언어 모델 내 편향 및 안전 위험을 진단하는 연구를 병행하는 것으로 알려져 있습니다.

2025년 Packard Fellowship을 수상하면서 차세대 AI 안전 연구자 중 한 명으로 주목받았고, 같은 해 NeurIPS 2025 Best Paper Award를 받으며 학계에서의 입지를 더욱 확고히 했습니다. 2025년 Okawa Foundation의 Okawa Research Grant(미국 내 7명 수상)도 받았으며, 봄에는 Amazon Research Award(에이전트 안전성 측정 프로젝트)도 수상했습니다.

연구 방향은 크게 세 갈래입니다. 사회적 지능을 갖춘 NLP 시스템 구축, 언어 내 사회적 불평등과 AI 안전 위험 요소 진단, 친사회적 결과를 위한 서사 언어 기술 개발이 그것입니다. 이 세 축은 모두 "언어 모델이 인간 사회에서 어떻게 작동하는가"라는 질문 아래 연결됩니다.

생애

워싱턴 대학교에서 컴퓨터 공학 박사 학위를 받았으며, 박사 논문 주제는 사회적 상식을 갖춘 Positive AI 모델 개발이었습니다. 지도교수는 최예진(Yejin Choi)으로, 박사 과정에서 형성된 협업 관계는 졸업 이후에도 계속 이어지고 있습니다. 박사 과정 중 상식 추론 지식 그래프 ATOMIC과 사회적 규범 데이터셋 Social Chemistry 101을 설계한 것이 초기 연구의 핵심입니다.

학위 취득 후 CMU LTI에 조교수로 임용되었으며, AI2에서 수석 연구 과학자(AI 안전 리드)를 겸직하는 형태로 산학 협력 구조를 유지하고 있습니다. CMU LTI 내 HCII(Human-Computer Interaction Institute)에도 겸임 교원으로 임용됐습니다. 2025년 8월에는 전담 박사후연구원을 처음으로 맞이하며 독립 연구그룹의 형태를 갖추기 시작했습니다.

2025년 여름에는 CMU LTI의 "Language Technology for All" 인턴십 프로그램을 통해 새로운 연구자들을 적극 영입했습니다. 2026년 봄학기에는 "Ethics, Safety, and Social Impact in NLP and LLMs" 강의를 개설해 AI 윤리와 안전 교육에도 기여하고 있습니다.

업적

ATOMIC 지식 그래프는 "사람이 X를 하면, 그 다음에는 어떤 일이 일어날 수 있는가"와 같은 인과적 및 사회적 추론을 기계가 다룰 수 있도록 구조화한 데이터베이스로, 이후 수많은 상식 추론 연구의 기반이 되었습니다. Social Chemistry 101은 사회적 규범을 수십만 건의 판단 형태로 수집한 데이터셋으로, 언어 모델의 규범 준수 능력을 평가하는 데 널리 활용됩니다.

언어 모델이 암묵적 혐오 표현이나 사회적 맥락 판단에서 어떻게 실패하는지를 체계적으로 규명한 일련의 연구들도 주목할 만합니다. SOCIAL BIAS FRAMES(ACL 2020)는 언어의 사회적 및 권력 함의를 추론하는 프레임워크로, 언어 모델이 내포한 편향을 가시화하는 도구로 쓰입니다. 이 연구들은 모델 자체의 성능보다 "모델이 어떤 사회적 위험을 내포하는가"를 중심에 놓는다는 점에서 AI 안전 연구의 실용적 분파라 할 수 있습니다.

2025년 10월 공개된 "Artificial Hivemind"(arXiv:2510.22954)는 LLM 동질화 문제를 체계적으로 분석한 논문으로, NeurIPS 2025 Datasets and Benchmarks Track Best Paper Award를 수상했습니다. 1저자 장리웨이, 교신저자 최예진과 공동으로 작성한 이 논문은 여러 모델 패밀리가 공개형 질문에 대해 동일한 응답으로 수렴하는 "모드 붕괴" 현상을 대규모로 실증했습니다. 2025년에는 SOTOPIA-S4(NAACL 2025 System Demonstrations)도 발표했습니다.

여담

CMU LTI는 NLP 분야에서 가장 오래된 전문 연구소 중 하나로, 삽은 이곳에서 인간 언어와 사회적 맥락을 연결하는 연구를 이어가고 있습니다. 그의 연구실은 "AI를 더 안전하고 신뢰할 수 있게 만드는 것"을 핵심 목표로 내걸고 있으며, 특히 취약한 상황에 놓인 사용자와의 대화에서 모델이 어떻게 행동해야 하는지를 탐구하는 방향으로 확장되고 있습니다.

SNS 활동도 활발한 편으로, Bluesky(@maartensap.bsky.social)를 통해 NLP 논문 동향이나 AI 안전 이슈에 대한 의견을 자주 공유합니다. 학계와 산업계를 아우르는 겸직 구조 덕분에 연구 결과가 실제 AI 시스템 개발에 어떻게 반영되는지를 가까이에서 관찰하고 적용할 수 있는 위치에 있습니다.

Packard Fellowship, Okawa Grant, Amazon Research Award를 동년에 수상한 것은 AI 안전 분야에서 그의 연구가 폭넓게 인정받고 있음을 보여주는 신호입니다. 사회적 편향 분석에서 에이전트 안전성 측정으로 연구 영역이 확장되는 흐름도 주목됩니다.

주요 논문

ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning (AAAI 2019)
Social Chemistry 101: Learning to Reason about Social and Moral Norms (EMNLP 2020)
SOCIAL BIAS FRAMES: Reasoning about Social and Power Implications of Language (ACL 2020)
Delphi: Towards Machine Ethics and Norms (2021)
PowerTransformer: Unsupervised Controllable Revision for Biased Language Correction (EMNLP 2020)
HellaSwag: Can a Machine Really Finish Your Sentence? (ACL 2019)
Neural Theory-of-Mind? On the Limits of Machine Theory of Mind in Large Language Models (2022)
Toxicity in ChatGPT: Analyzing Persona-assigned Language Models (EMNLP 2023)
Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) (NeurIPS 2025 Best Paper)
SOTOPIA-S4: A User-Friendly System for Flexible, Customizable, and Large-Scale Social Simulation (NAACL 2025 System Demo)