손귀진

🏷️ 인물 LLM AI평가 CEO NeurIPS논문 Star

개요

손귀진(Guijin Son)은 한국어 LLM 평가 분야에서 가장 활발히 활동하는 연구자 중 한 명입니다. 서울대학교 소속이며, 오픈소스 한국 NLP 연구그룹 HAE-RAE의 리드이자 OnelineAI의 공동창업자입니다.

한국어 LLM 평가 표준으로 자리잡은 KMMLU와 HAE-RAE Bench를 주도했고, 2025년 NAACL에서 BiGGen Bench로 Best Paper Award를 수상했습니다. 한국어 텍스트 평가에서 시작해 수학·과학 같은 도메인 평가로 연구 영역을 꾸준히 넓혀가고 있습니다.

연구 활동과 창업을 병행하는 연구자로, OnelineAI를 통해 실제 서비스 환경에서 한국어 LLM 활용을 실험하는 산학 연계 모델을 추구하고 있습니다.

생애

서울대학교에서 연구 활동을 이어가고 있으며, HAE-RAE라는 오픈소스 한국 NLP 연구 그룹을 결성해 국내외 연구자들과 협업해왔습니다. 초기에는 한국 문화와 언어 특성을 반영한 LLM 평가 도구의 부재를 문제의식으로 삼아 연구를 시작했습니다.

영어 벤치마크를 단순 번역하는 방식의 한계를 지적하고, 한국 실제 시험과 자격증 문제를 직접 수집해 벤치마크를 구성하는 방법론을 택했습니다. 이 접근 방식이 KMMLU의 핵심 차별점이자 이후 한국어 LLM 평가 생태계의 기준이 되었습니다.

HAE-RAE 활동과 병행해 OnelineAI를 공동창업했고, Ko-R1-7B-v2.1 등 소형 한국어 특화 LLM 개발과 평가를 산업 환경에서 직접 수행하며 연구와 실용 사이의 거리를 좁혀왔습니다.

업적

대표작은 KMMLU(35,030문제, 45개 과목)와 HAE-RAE Bench입니다. KMMLU는 영어 벤치마크를 번역한 것이 아니라 한국 국가시험, 자격증 문제를 직접 수집해 구성했습니다. 한국어와 한국 문화의 특수성을 반영한 평가 도구로, NAACL 2025에 채택되었습니다. HAE-RAE Bench는 LREC-COLING 2024에 채택됐습니다.

2025년에는 LLM의 다양한 역량을 세밀하게 평가하도록 설계된 BiGGen Bench로 NAACL 2025 Best Paper Award를 수상했습니다. 같은 해 KMMLU-Redux, KMMLU-Pro, 그리고 한국어 LLM 평가 도구를 통합한 HRET(Haerae Evaluation Toolkit)까지 연이어 발표하며 한국어 LLM 평가 인프라를 체계화했습니다. HRET는 로짓 기반 채점, 정답 일치 방식, 언어 불일치 패널티를 통합한 오픈소스 평가 프레임워크입니다.

2026년에는 김승원, 캐서린 아넷, 션 웰렉, 그레이엄 뉴비그, 아카리 아사이 등과 함께 연구 수준 수학 벤치마크 SOOHAK(1,141문제, 수학자 105명 동원)의 1저자를 맡았습니다. 한국 과학기술정보통신부 "주권 AI 기반 모델" 프로젝트와 연계된 이 벤치마크는 2025년 8월 엘리트팀 경쟁 방식으로 공개되었고, 데이터셋은 2026년 말 공개 예정입니다.

여담

한국어 LLM 평가라는 비교적 좁은 영역에서 시작했지만, 벤치마크 설계 방법론 자체에 대한 깊은 고민을 지속해왔다는 점이 인상적입니다. BiGGen Bench는 단순한 정답률 측정이 아니라 LLM이 얼마나 세밀하게 역량을 발휘하는지 평가하는 방향을 제안했고, 이는 NAACL 최우수 논문으로 인정받았습니다.

HAE-RAE라는 이름은 훈민정음 해례본(解例本)에서 따온 것으로, 한글 창제 원리를 담은 문헌의 이름을 연구 그룹명으로 쓴 것입니다. 한국어 NLP 연구에 대한 문화적 자의식이 담겨 있습니다.

CMU의 그레이엄 뉴비그, 워싱턴대의 아카리 아사이 같은 글로벌 NLP 연구자들과의 협업 네트워크를 구축한 것도 주목할 만한 부분입니다. 국내 한국어 평가에서 국제 연구 커뮤니티와의 접점을 넓혀가는 경로를 개척하고 있습니다.