손귀진

개요

손귀진(Guijin Son)은 한국어 LLM 평가 분야에서 가장 활발히 활동하는 연구자 중 한 명입니다. 서울대학교 소속이며, 오픈소스 한국 NLP 연구 그룹 HAE-RAE의 리드이자 OnelineAI의 공동창업자입니다.

한국어 LLM 평가 표준으로 자리잡은 KMMLU와 HAE-RAE Bench를 주도했고, 2025년 NAACL에서 BiGGen Bench로 Best Paper Award를 수상했습니다. 한국어 텍스트 평가에서 시작해 수학, 과학 같은 도메인 평가로 연구 영역을 꾸준히 넓혀가고 있습니다.

연구 활동과 창업을 병행하는 연구자로, OnelineAI를 통해 실제 서비스 환경에서 한국어 LLM 활용을 실험하는 산학 연계 모델을 추구하고 있습니다.

생애

서울대학교에서 연구 활동을 이어가고 있으며, HAE-RAE라는 오픈소스 한국 NLP 연구 그룹을 결성해 국내외 연구자들과 협업해왔습니다. 초기에는 한국 문화와 언어 특성을 반영한 LLM 평가 도구의 부재를 문제의식으로 삼아 연구를 시작했습니다.

영어 벤치마크를 단순 번역하는 방식의 한계를 지적하고, 한국 실제 시험과 자격증 문제를 직접 수집해 벤치마크를 구성하는 방법론을 택했습니다. 이 접근 방식이 KMMLU의 핵심 차별점이자 이후 한국어 LLM 평가 생태계의 기준이 되었습니다.

HAE-RAE 활동과 병행해 OnelineAI를 공동창업했고, Ko-R1-7B-v2.1 등 소형 한국어 특화 LLM 개발과 평가를 산업 환경에서 직접 수행하며 연구와 실용 사이의 거리를 좁혀왔습니다. CMU의 그레이엄 뉴비그, 워싱턴대의 아카리 아사이 같은 글로벌 NLP 연구자들과의 협업 네트워크를 구축한 것도 중요한 성과입니다.

업적

대표 성과는 KMMLU(35,030문제, 45개 과목)와 HAE-RAE Bench입니다. KMMLU는 영어 벤치마크를 번역한 것이 아니라 한국 국가시험, 자격증 문제를 직접 수집해 구성했습니다. 한국어와 한국 문화의 특수성을 반영한 평가 도구로, NAACL 2025 알버커키 학회에 채택되었습니다. HAE-RAE Bench는 LREC-COLING 2024에 채택됐습니다.

2025년에는 LLM의 다양한 역량을 세밀하게 평가하도록 설계된 BiGGen Bench로 NAACL 2025 Best Paper Award를 수상했습니다. 같은 해 KMMLU-Redux, KMMLU-Pro, 한국어 LLM 평가 도구를 통합한 HRET(Haerae Evaluation Toolkit)까지 연이어 발표하며 한국어 LLM 평가 인프라를 체계화했습니다. HRET는 로짓 기반 채점, 정답 일치 방식, 언어 불일치 패널티를 통합한 오픈소스 평가 프레임워크입니다.

2026년에는 김승원, 캐서린 아넷, 션 웰렉, 그레이엄 뉴비그, 아카리 아사이 등과 함께 수학자 105명이 출제에 참여한 연구 수준 수학 벤치마크 Soohak - A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs(1,141문제)의 1저자를 맡았습니다. Gemini-3-Pro, GPT-5, Claude-Opus-4.5 등 최전선 모델들이 Challenge 서브셋에서 각각 30.4%, 26.4%, 10.4%를 기록하는 데 그쳐 난이도를 입증했습니다. 이 벤치마크는 대한민국 과학기술정보통신부 "주권 AI 기반 모델" 프로젝트와 연계되어 있습니다.

여담

한국어 LLM 평가라는 비교적 좁은 영역에서 시작했지만, 벤치마크 설계 방법론 자체에 대한 깊은 고민을 지속해왔다는 점이 인상적입니다. BiGGen Bench는 단순한 정답률 측정이 아니라 LLM이 얼마나 세밀하게 역량을 발휘하는지 평가하는 방향을 제안했고, 이는 NAACL 최우수 논문으로 인정받았습니다.

HAE-RAE라는 이름은 훈민정음 해례본(解例本)에서 따온 것으로, 한글 창제 원리를 담은 문헌의 이름을 연구 그룹명으로 쓴 것입니다. 한국어 NLP 연구에 대한 문화적 자의식이 담겨 있습니다.

SOOHAK 데이터셋은 2026년 말 공개 예정으로, 그 전까지는 모델 평가를 요청 방식으로만 진행합니다. 데이터 오염(contamination)을 방지하기 위한 전략적 선택이며, ill-posed 문제를 인식하고 답변을 거부하는 능력을 평가하는 refusal 서브셋이 포함되어 있다는 점도 기존 수학 벤치마크와 차별화되는 설계입니다.

주요 논문

HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models (2024) -- 한국 어휘, 역사, 상식, 독해 6개 과제를 포함한 한국어 LLM 지식 평가 벤치마크 (LREC-COLING 2024)
KMMLU: Measuring Massive Multitask Language Understanding in Korean (2025) -- 한국 국가시험, 자격증 문제 35,030개, 45개 과목으로 구성된 한국어 대형 평가 벤치마크 (NAACL 2025)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models (2025) -- LLM의 세밀한 역량을 LLM으로 평가하는 벤치마크 (NAACL 2025 Best Paper)
Soohak - A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs (2026) -- 수학자 105명이 출제한 연구 수준 수학 벤치마크, 1,141문제
KMMLU-Redux: A Professional Korean Benchmark Suite for LLM Evaluation (2025) -- KMMLU 개선판, 오류 수정 및 평가 신뢰도 향상
HRET: Haerae Evaluation Toolkit (2025) -- 로짓 기반 채점, 언어 불일치 패널티를 통합한 오픈소스 한국어 LLM 평가 프레임워크
Robustness of Reward Models to Preference Data Perturbation (2025) -- 보상 모델의 선호 데이터 변동에 대한 강건성 분석 (ICML 2025)