김승원
김승원(Seungone Kim)은 카네기멜런대학교 언어기술연구소(CMU LTI) 박사과정 학생입니다. 2024년 3월부터 박사 과정을 시작했고, 그 이전에는 KAIST AI에서 서민준 교수의 지도 아래 석사 학위를 받았습니다. 주요 연구 영역은 LLM 평가와 AI for Science입니다.
대표 작업은 Prometheus 시리즈입니다. Prometheus는 사용자 정의 채점 루브릭으로 다른 LLM의 긴 출력을 평가할 수 있는 13B 오픈소스 평가자 모델로, 45개 커스텀 루브릭 평가에서 인간 평가자와 피어슨 상관 0.897을 기록해 GPT-4(0.882)와 거의 동등한 성능을 보였습니다. ChatGPT의 0.392와는 큰 차이가 납니다.
후속작 Prometheus 2는 직접 평가와 pairwise 랭킹 모두를 지원하며, "LLM-as-a-Judge" 분야에서 가장 널리 인용되는 오픈소스 평가자 모델로 자리잡았습니다. 다국어 버전인 M-Prometheus까지 라인업이 확장됐습니다.
2026년 손귀진이 1저자인 SOOHAK 벤치마크의 공동저자로 참여했습니다. SOOHAK의 자동 채점에 GPT-5-Mini judge가 쓰이는데, 이 LLM-as-a-Judge 방법론을 정립한 본인이 평가 설계에 직접 참여한 셈입니다.