김승원

개요

김승원(Seungone Kim)은 카네기멜런대학교(CMU) 언어기술연구소(LTI) 박사과정 연구자입니다. 주요 연구 영역은 LLM 평가(LLM Evaluation)와 AI for Science이며, 오픈소스 평가자 모델 시리즈 Prometheus의 1저자로 알려져 있습니다. LLM-as-a-Judge 방법론 분야에서 가장 많이 인용되는 연구자 중 한 명입니다.

연구 방향은 크게 두 축입니다. 하나는 사람과 유사한 세밀한 평가 능력을 언어 모델에 유도하는 것이고, 다른 하나는 과학 연구에서 LLM이 어떤 역할을 할 수 있는지를 탐구하는 것입니다. Prometheus 시리즈는 첫 번째 축에서 나온 결과물이며, 현재 다국어·멀티모달 평가자로 라인업이 확장되고 있습니다.

개인 홈페이지(seungonekim.github.io)와 소셜 미디어를 통해 새 논문을 직접 설명하는 스레드를 꾸준히 게시하며, 연구 커뮤니케이션에 적극적인 연구자로 알려져 있습니다.

생애

김승원은 연세대학교에서 컴퓨터과학 학사 학위를 받았습니다. 학부 재학 중 네이버 AI 랩(NAVER AI Lab)과 LG AI 연구원 인턴십을 거치며 NLP 연구를 시작했습니다. 이후 KAIST AI 대학원에서 서민준 교수의 지도 아래 석사 학위를 취득했으며, 이 시기 Prometheus 시리즈의 핵심 연구가 이루어졌습니다.

2024년 8월부터 CMU LTI 박사과정에 입학해 그레이엄 노이빅(Graham Neubig)과 숀 웰렉(Sean Welleck) 교수의 공동 지도를 받고 있습니다. 2025년에 메타 AI(FAIR) 연구 인턴십을 마쳤으며, 2026년 여름에도 FAIR 인턴십이 예정되어 있습니다. KAIST 석사 시절 지도교수 서민준의 CoCoLM 연구 그룹에서 형성된 LLM 평가 연구 방향이 CMU에서도 이어지고 있습니다. CMU LTI에서는 AI for Science와 신경 기호 추론(neural-symbolic reasoning) 방향으로 연구 범위를 넓히고 있습니다.

2026년에는 한국어 수학 추론 벤치마크 Soohak - A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs 프로젝트의 공동저자로 참여하며, 자신이 방법론적으로 정립한 LLM-as-a-Judge 평가 설계를 한국어 평가 인프라에 직접 적용했습니다.

업적

김승원의 핵심 기여는 Prometheus 시리즈를 통한 오픈소스 LLM 평가자 모델의 체계화입니다. 2023년 ICLR에 발표된 첫 번째 Prometheus 논문은 사용자 정의 채점 루브릭(rubric)을 기반으로 다른 LLM의 긴 출력을 세밀하게 평가할 수 있는 13B 오픈소스 모델을 제안했습니다. 45개 커스텀 루브릭 평가에서 인간 평가자와 피어슨 상관 0.897을 기록해 GPT-4(0.882)와 거의 동등한 수준을 달성했습니다. GPT-3.5-turbo의 0.392와 비교하면 격차가 크고, 동급 오픈소스 모델 중에서는 압도적이었습니다.

2024년 발표된 Prometheus 2는 직접 평가(direct assessment)와 쌍 비교(pairwise comparison) 두 가지 평가 방식을 모두 지원하도록 확장했습니다. 이 버전은 LLM-as-a-Judge 분야에서 가장 널리 인용되는 오픈소스 평가자 모델로 자리잡았습니다. 2025년 4월에는 M-Prometheus가 발표되었습니다. 3B에서 14B까지 다양한 파라미터 규모의 다국어 평가자 모델 군으로, 안전성 평가와 번역 품질 평가에서 효과적이며 Best-of-N 리워드 모델로서도 경쟁력을 보였습니다.

Prometheus 시리즈 외에도 LLM 추론 단계의 지식 기반 검증 방법론(Assessing LLM Reasoning Steps via Principal Knowledge Grounding, 2025), 다국어 멀티모달 LLM Pangea(2024), 개방형 QA 평가를 위한 MinosEval(2026), 추론 모델을 프로세스 평가자로 활용하는 Scaling Evaluation-time Compute 연구(2025) 등 평가 방법론 전반으로 연구를 넓히고 있습니다.

여담

KAIST AI 석사 시절 지도 교수인 서민준(Minjoon Seo) 교수의 CoCoLM(Commonsense Communication Lab) 연구 그룹은 LLM의 상식·언어 능력과 평가에 집중하는 그룹으로, 김승원의 연구 방향성은 이 그룹에서 형성되었다고 볼 수 있습니다. CMU LTI 진학 후 지도 교수진을 Graham Neubig과 Sean Welleck으로 설정한 것은 AI for Science와 신경 기호 추론 방향으로 연구 범위를 넓히려는 의도로 읽힙니다.

Prometheus 프로젝트는 GitHub prometheus-eval/prometheus-eval 저장소를 통해 오픈소스로 관리되고 있으며, LLM-as-a-Judge 방법론을 실무에서 활용하려는 연구자와 엔지니어들 사이에서 널리 참조됩니다. 벤치마크 설계자가 같은 방법론으로 새 벤치마크의 평가 체계를 구성하는 방식으로 연구 기여가 직접 연결되는 사례입니다.

주요 논문

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models (ICLR 2024)
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models (2024)
M-Prometheus: A Suite of Open Multilingual LLM Judges (2025)
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages (2024)
Assessing LLM Reasoning Steps via Principal Knowledge Grounding (2025)
Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators (2025)
MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs (2026)
Soohak - A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs (2026 공저)