Soohak - A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

🏷️ 논문 벤치마크 headliner

Son, G., Kim, S., Arnett, C., et al. (2026). SOOHAK: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs. arXiv:2605.09063.

올해 5월 arXiv에 올라온 SOOHAK은 한국에서 만든 수학 벤치마크입니다. 단일 한국어 벤치마크로는 가장 큰 규모입니다. 벤치마크를 만드는 과정 자체가 솔직하게 기록돼 있어 재미있게 읽었습니다.

저자

논문의 조직 팀(Organizing Team)이 21명, 데이터 기여자가 105명입니다. 한국 수학자 동원 프로젝트인 동시에, LLM 평가 인프라 분야 핵심 연구자들의 합작입니다.

Guijin Son은 한국어 LLM 평가 표준이 된 KMMLU·HAE-RAE Bench·BiGGen Bench를 만든 사람입니다. 그 한국어로도 LLM을 제대로 평가할 수 있게 인프라를 구축하는 데 관심이 많습니다. SOOHAK은 이 궤적의 다음 장입니다. 한국어 텍스트 평가에서 시작해 수학·과학 같은 도메인 평가로 영역을 옮긴 거예요.

문제는 도메인 평가, 그것도 연구 수준 수학 평가에는 텍스트 벤치마크와 다른 전문성이 필요하다는 겁니다. 그 빈자리를 채우는 게 나머지 5명입니다.

Seungone Kim은 Prometheus 시리즈로 LLM-as-a-Judge 분야를 열었습니다. SOOHAK은 정답 채점에 GPT-5-Mini judge를 쓰는데, 이 방법론을 정립한 본인이 평가 설계에 들어옵니다.

Sean Welleck은 NaturalProver·Draft Sketch and Prove로 수학 LLM·자동 증명 분야의 핵심 연구자이고, 최근 DARPA expMath의 lead PI로 선정됐습니다. 논문이 limitation으로 짚은 proof-assistant 기반 채점이 그의 영역입니다. SOOHAK이 정수 답 한계를 넘어 어디로 가야 하는지를 가장 잘 아는 사람이 같은 팀에 있는 셈입니다.

Catherine Arnett(EleutherAI)은 다국어 NLP·토크나이저 연구자입니다. 한·영 양방향 이중언어 벤치마크라는 SOOHAK의 형식에 자연스럽게 필요한 자리입니다.

Akari Asai는 Self-RAG(ICLR 2024 oral) 저자로 RAG 분야 대표 주자입니다. 흥미로운 건 SOOHAK 인터뷰에서 기여자들이 LLM 검색 능력이 좋아지면서 단일 논문 기반 문제는 더 이상 어렵지 않다고 한 부분입니다. 평가 난이도 기준선을 끌어올린 검색 보강 LM의 흐름을, 그 흐름을 만든 사람이 평가자 입장에서 다시 보는 구도입니다.

Graham Neubig는 CMU LTI 부교수, All Hands AI 공동창업자입니다. 일본 NAIST에서 박사를 받은 배경 덕에 한국·일본 학생들과의 멘토링 네트워크가 두텁습니다. SOOHAK 저자에 한국 출신 KAIST·SNU 박사·박사후가 유독 많은 데에는 이 네트워크의 영향이 있어 보입니다.

한국 정부 예산(800M KRW)과 한국 수학자 105명으로 데이터를 만들고, CMU·UW·EleutherAI의 평가 인프라 연구자들이 어떻게 측정할지를 설계한 구조입니다. 한국에서 만든 벤치마크지만 평가 방법론 측면에서는 국제적 협업이라고 볼 수 있습니다.

기여자 풀 105명은 KAIST·SNU·CMU·Ruhr 대학교 등 31개 기관 소속 수학자들이며, IMO 금메달리스트 5명, 교수 38명, 박사·박사후 25명, 학부 25%가 섞여 있습니다.

배경

2025년은 LLM 수학에서 상징적인 해입니다. 제미나이가 IMO에서 금메달 수준 점수를 받았고, GPT-5와 o-시리즈는 AIME에서 거의 만점을 받습니다. MATH, GSM8K 같은 초기 벤치마크는 출시 당시 모델이 10% 미만이었는데 이제는 천장에 닿았습니다. 자연스럽게 따라오는 질문은 올림피아드의 다음이죠.

저자들은 수학 벤치마크를 둘로 나눕니다. 올림피아드 스타일은 좁은 콘테스트 커리큘럼 안에서 다단계 추론을 측정하는 겁니다. 짧고 기계로 채점 가능한 정답이 있고, 대회 문제에서 끌어오는 경우가 많습니다.

반면 연구 수준, research-level은 그 추론을 사용해서 수학 지식의 경계를 살짝이라도 넓히는 방향입니다. FrontierMath, RealMath, First Proof가 이쪽 흐름입니다. 문제는 연구 수준 벤치마크가 절대적으로 작다는 겁니다.

Riemann-Bench: 25문제
FrontierMath Tier 4: 50문제
AMO-Bench: 단일 분야

규모가 작은 이유는 시간입니다. 한 문제 만드는 데 며칠씩 걸립니다. 게다가 최근 벤치마크들은 학습 데이터 오염을 막으려고 문제를 비공개로 묶어두는데, 그러면 투명성과 재현성이 같이 사라집니다.

SOOHAK은 수학자가 새로 쓴 문제 + 충분히 큰 규모 + 한시적 비공개 후 공개라는 조합을 선보입니다.

어떻게 만들었나

SOOHAK이 다른 수학 벤치마크와 갈라지는 지점은 데이터 수집 방식입니다. 두 가지를 봐야 합니다. 문제를 어떻게 걸렀는지(파이프라인)와, 그렇게 걸러낸 문제를 어떻게 분류했는지(게이트)입니다.

5단계 수집 파이프라인

논문 Figure 1에 정리된 흐름입니다.

개인 제출과 동의 — 기여자는 ChatGPT를 사용하지 않았다, 원저작이다, 저작권을 양도한다는 서약을 하고 LaTeX 문제를 제출합니다.
자동 LLM 검사 — 난이도 분류와 유사도 체크가 자동으로 돌아갑니다. 의심스러운 항목은 수동 검수로 라우팅됩니다.
사람 리뷰어 2명 — 모델이 푼 풀이와 기여자가 제출한 풀이를 대조합니다. 어긋나면 재검토를 요청합니다.
기여자 opt-in — 수정 후 최종 포함 여부를 기여자 본인이 결정합니다.
최종 수록 — 검증된 데이터셋에 포함됩니다.

이 과정에서 87개 문제가 수정됐고, 12명 넘는 기여자가 LLM 생성 문제 제출 시도로 퇴출됐습니다. 수학자 본인이 LLM에 문제를 만들게 시키고 보상만 챙기려 한 사례가 실제로 있었다는 의미입니다. 거기까지 사람이 잡아내는 인프라를 깐 점이 SOOHAK이 다른 데이터셋과 갈라지는 첫 번째 지점입니다.

3개의 모델 게이트

제출된 문제를 Mini와 Challenge 중 어디에 배치할지는 사람이 결정하지 않습니다. 모델이 풀 수 있는지 없는지가 기준입니다.

게이트 1 — Qwen3-7B, OpenThinker3-7B가 모두 못 풀어야 통과
게이트 2 — gpt-oss-20B, Qwen3-32B가 모두 못 풀어야 통과
게이트 3 — gpt-oss-120B, Qwen3-235B, DeepSeek-R1이 모두 못 풀어야 통과

게이트 1·2까지 통과한 문제는 SOOHAK-Mini로 들어갑니다. 게이트 3까지 통과한 문제는 SOOHAK Challenge로 들어갑니다. 즉 Challenge는 현 시점 큰 오픈소스 추론 모델들이 모두 실패한 문제의 집합입니다. 이 설계 덕분에 이건 어렵다는 주관적 판단 없이도 난이도가 자동으로 보장됩니다.

추가로 ScienceBench라는 외부 벤더에서 bulk-purchase로 112문제를 사서 Challenge에 보탰습니다. 여기에 참여한 19명까지 합쳐 총 기여자가 105명, 31개 기관이 됩니다. 그중 38명이 교수, 25명이 박사·박사후, 5명이 IMO 메달리스트입니다.

보상 구조

전체 보상 풀이 USD 260,000입니다. 문제당 보상은 $36에서$3,623까지 Challenge 통과 여부에 따라 달라지고, 한 사람당 상한은 $20,000입니다. 게이트를 통과할수록 보상이 커지는 구조라 자연스럽게 어려운 문제에 인센티브가 쏠립니다. 이 설계가 나중에 회고에서 자기비판의 대상이 됩니다.

번역 파이프라인

원본의 약 92%가 영어로 작성됐습니다. 도메인 적응형 기계번역으로 한·영 양방향 초벌을 만들고, 한국수학회 사전 기준의 용어 정규화, 전문 번역가의 post-editing, 자동 QA 체크를 거쳐 이중언어 데이터셋을 만들었습니다. LaTeX 수식은 placeholder로 보호한 뒤 번역기를 통과시키고 다시 복원하는 방식을 썼습니다. 유출 방지를 위해 외부 LLM 인터페이스에 원문을 업로드하는 행위는 전 과정에서 금지됐습니다.

무엇으로 구성돼 있나

SOOHAK은 세 서브셋으로 나뉩니다.

서브셋	문제 수	성격
SOOHAK Challenge	340	대학원~연구 인접
SOOHAK-Mini	702	고교 올림피아드~학부 초반
SOOHAK Refusal	99	일부러 잘못된 문제
합계	1,141

논문 abstract는 Challenge와 Refusal만 합쳐 439문제라고 표기하지만, §3 본문 기준으로는 Mini까지 포함해 1,141문제가 정본입니다. preprint 단계라 숫자가 흔들리는 부분이 몇 군데 있는데, 이 글은 §3.1과 §B.4의 본문 기준을 따릅니다.

Challenge

본격적인 어려운 문제들입니다. 한 문제 만드는 데 며칠씩 걸렸다고 합니다. 인터뷰에서 기여자들은 두 가지 전략을 얘기합니다.

Folklore 추론 압축 — 전문가들 사이에는 알려져 있지만 논문화되지 않은 민속 지식을 한 문제로 응축합니다. 표준적 사실과 커뮤니티 휴리스틱을 조합하면 결론이 나오지만 한 논문에 정리돼 있지는 않은 종류입니다.
여러 논문 합성 — 예전에는 단일 논문 하나에서 좋은 문제를 뽑을 수 있었지만, LLM의 검색·검토 능력이 올라가면서 단일 논문 기반 문제는 더 이상 어렵지 않아졌습니다. 여러 specialized paper를 묶어야 비로소 모델을 막을 수 있게 됐습니다.

세부 주제 분포(MSC 분류)를 보면 정수론 269, 조합론 131, 대수기하 76, 군론 67, 체론 54, 실해석 115로 대수·이산 쪽이 전체의 60%를 차지합니다. 반면 확률·통계는 25문제, 응용수학은 27문제뿐입니다. 한국 기여자 풀의 전공 분포가 그대로 반영된 결과로, 저자들도 한계로 인정합니다.

Mini

올림피아드부터 학부 초반 수준입니다. 더 많은 모델을 횡으로 비교할 수 있도록 설계된 트랙입니다. IMO Shortlist 같은 콘테스트 문제의 리믹스가 많이 들어가 있습니다. 핵심 트릭은 유지하면서 파라미터를 바꾸거나 조건을 재조합한 형태입니다.

새 문제이긴 하지만, 상위 수학 지식을 가진 모델은 의도된 콘테스트 풀이 대신 더 넓은 도구로 빠르게 풀어버립니다. 콘테스트용으로 어려운 것과 모델한테 어려운 것이 다르다는 단서가 이 트랙에서 드러납니다.

Refusal

이 논문에서 가장 새로운 부분입니다. SOOHAK을 단순히 더 어려운 벤치마크가 아니라 새로운 측정 축으로 만드는 서브셋입니다.

Refusal 문제는 처음부터 잘못 설계된 문제입니다. 자기모순이 있거나, 가정이 빠졌거나, 답이 없거나, 답이 여러 개입니다. 수집 과정에서 quality control에 걸려 거부된 제출들을 따로 모은 셈입니다.

채점 기준은 단순합니다.

정답 — 이 문제는 명시된 그대로는 정답이 없습니다 / 모순됩니다 / 가정이 부족합니다라고 진단
오답 — 자신감 있게 숫자 하나를 뱉음

수학 연구에서 가장 중요한 능력 중 하나가 이건 안 풀린다, 이 방향은 막혔다, 이 문제는 잘못 정의됐다고 멈출 줄 아는 것입니다. SOOHAK은 이 능력을 정량 벤치마크로 처음 공식화했습니다.

결과

모델 성적표

논문 Table 2를 정리했습니다. Avg@3는 세 번 샘플링 평균, Pass@3는 세 번 중 한 번이라도 맞으면 정답입니다.

모델	Mini Avg@3	Challenge Avg@3	Refusal Avg@3
Gemini-3-Pro	71.70	30.39	41.41
GPT-5	72.22	26.37	43.09
Gemini-3-Flash	61.40	15.69	43.10
Claude Opus 4.5	51.38	10.39	26.60
Claude Sonnet 4.5	40.88	5.69	10.29
Grok-4.1-Fast	70.66	18.43	35.35
GPT-5-Mini	67.14	18.82	41.08
Qwen3-235B-thinking	56.22	8.04	2.69
GPT-OSS-120B	61.02	11.27	43.77
Kimi-2.5	66.07	13.87	29.97
GLM-5	63.11	9.61	49.49

세 가지가 눈에 띕니다.

Challenge 천장은 30.4%. Gemini-3-Pro가 가장 높지만 70%는 못 풉니다. 340문제 중 평가된 모든 모델이 한 번도 못 푼 문제가 124개로 전체의 36.5%입니다. 헤드룸이 살아있는 벤치마크라는 의미입니다.

오픈소스는 Mini에서 따라잡고 Challenge에서 벌어집니다. Kimi-2.5는 Mini에서 66.07로 GPT-5(72.22)와 6pp 차이지만, Challenge에서는 13.87 대 26.37로 거의 두 배가 벌어집니다. 저자들은 이렇게 해석합니다. 공개된 수학(논문·교과서)은 오픈소스도 잘 학습했지만, 논문화되지 않은 folklore와 paywall 너머 niche source는 접근권이 곧 성능이라는 겁니다. 학습 데이터 접근성 격차가 평가에 그대로 드러난 사례입니다.

Refusal은 순위가 뒤집힙니다. Challenge 하위권인 GLM-5가 Refusal에서 49.49%로 1위입니다. Gemini-3-Pro는 41.41로 중상위, Qwen3-235B는 2.69%로 꼴찌입니다. 같은 패밀리 안에서도 Qwen3 계열은 Refusal에 유독 약합니다. 어떤 모델도 50%를 넘기지 못합니다. 강하게 추론하는 모델과 조용히 멈출 줄 아는 모델이 다르다는 단서입니다.

컴퓨트 스케일링

논문 Figure 2의 핵심 발견입니다.

파라미터 스케일링 — Qwen3 패밀리(0.6B → 32B)에서 Challenge Pass@3는 2.94에서 15.29로 꾸준히 올라갑니다. 모델을 키우면 어려운 수학에는 도움이 됩니다.
테스트 타임 컴퓨트 — gpt-oss-120B를 medium reasoning → hard reasoning → hard + 81K context로 늘리면 Challenge가 18.53, 26.47, 29.71로 상승합니다. Qwen3-235B-thinking도 default에서 81K context로 가면 15.00 → 22.35.
Refusal은 거의 안 오릅니다. 토큰 예산을 늘려도 이 문제는 풀 수 없다고 판단하는 능력은 좋아지지 않습니다.

저자들이 결론에 솔직하게 적어둔 부분이 있습니다. Refusal does not show the same scaling patterns; what governs refusal and hallucination behavior we leave to future work. Refusal은 컴퓨트로 살 수 없는 능력이라는 것이 이 논문에서 가장 도발적인 발견입니다.

Carefulness-adjusted ranking

저자들은 Capability(Mini + Challenge 평균) 외에 Avg-R(Mini + Challenge + Refusal 평균)과 SOOHAK-R(Challenge + Refusal 평균)을 별도 지표로 보고합니다. Refusal에서 자신감 있게 틀리는 모델은 자동으로 페널티를 받는 구조입니다.

결과적으로 Capability 1위는 Gemini-3-Pro지만, Avg-R 1위는 GPT-5로 바뀝니다. GLM-5는 Capability에서 별로지만 Avg-R에서는 3계단 올라갑니다. Kimi-2.5는 3계단 떨어집니다. 추론은 강하지만 신중하지 않은 모델과 조심스럽지만 추론력이 부족한 모델 사이의 트레이드오프가 지표 하나에 드러납니다.

인간 베이스라인

저자들은 사람의 위치를 잡기 위해 5팀, 총 25명을 모집했습니다. 79문제, 4.5시간 제한, 비-AI 도구 허용(계산기·검색·프로그래밍), LLM 금지, 인당 보상 $340입니다.

팀	구성	점수 (79문제 중 %)
Combined (5팀 합)	—	50.6
Math Major (IMO exp.)	학부 수학 + 올림피아드 경력	38.0
Math Major (IMO Gold)	IMO 금메달 보유	31.6
Math Researchers	박사 5명	24.1
Math Major	학부 수학	21.5
CS Major (IMO exp.)	학부 CS + 올림피아드	12.7

두 가지가 의외입니다.

박사 연구자 팀이 24.1%로 중하위입니다. 1위는 학부생 + 올림피아드 경력인 Math Major (IMO exp.) 팀(38.0)입니다. 저자들 해석은 능력 차이가 아니라 **포맷 불일치(task-format mismatch)**입니다. 4.5시간 안에 짧은 정답을 뽑는 형식은 콘테스트 훈련된 사람에게 유리합니다. 박사 연구자들은 깊지만 좁기 때문에, 넓은 주제 + 시간 압박 + 정수 답이라는 세 조건이 겹치면 손해를 봅니다.

Gemini-3-Pro(60.8%)는 5팀 합산(50.6%)을 넘긴 유일한 모델입니다. 단일 팀 대 단일 모델로 보면 모든 인간팀을 능가합니다. 다만 모델은 토큰 예산이 사람의 시간 예산보다 훨씬 자유롭다는 점에서, 직접 비교는 조심해서 읽어야 한다고 저자들이 명시합니다.

또 한 가지 디테일이 있습니다. 사람은 길고 표기 무거운 문제를 본능적으로 피합니다. 본질적 난이도와 무관하게 길이만 길어도 손이 안 갑니다. LLM은 길이에 균일하게 토큰을 씁니다. 이 차이만으로도 모델이 raw competence 외에 추가 커버리지 이득을 얻습니다.

회고

논문에 Appendix F 전체가 실패 회고록으로 쓰여 있습니다. 4가지 자기비판이 핵심입니다.

4개월은 너무 빡빡했습니다. 제안서, 행정, 계약, 전문가 모집, 수집, 검수, 인간 평가까지를 4개월에 압축했습니다. 그래서 리뷰어 인프라를 일찍 깔지 못했고, 파일럿 라운드를 충분히 돌리지 못했습니다. first-order bottleneck이었다고 저자들이 직접 적었습니다.

보상을 난이도에만 걸면 인센티브가 비뚤어집니다. 어려운 문제일수록 보상이 큰 구조여서, 정상적인 콘테스트 스타일 문제는 비용 대비 보상이 나빠 외면받았습니다. 반대로 paper-based / research-adjacent 문제는 높은 보상으로 가는 가장 확실한 길이 됐고, 자연스럽게 Mini의 다양성을 줄였습니다. 어떤 어려운 문제는 좋은 진단이 아니라 잘못된 이유로 어려운 것이라는 자기비판도 함께 적혀 있습니다.

한국 중심 모집은 분야 커버리지를 좁힙니다. 한국에 우수한 수학자 풀이 있어도 결국 지리적으로 좁습니다. 그 결과 확률·통계·응용수학 영역이 얇습니다. global-scale recruitment is effectively a requirement라고 못박았습니다.

정수 답 포맷이 한계입니다. 자동 채점은 편하지만, 고등 수학은 본질적으로 증명·구성·반례·동치류로 평가돼야 자연스럽습니다. 이걸 정수 하나로 강제하면 측정 가능한 수학 능력의 공간이 좁아집니다. 다음 방향으로 저자들은 (1) proof-assistant 기반 채점, (2) symbolic tool로 부분 검증할 수 있는 구조화된 답, (3) 선택적 전문가 채점을 제시합니다. 이 마지막 방향은 Sean Welleck의 본업이기도 합니다.

난이도는 좋은 벤치마크의 한 재료일 뿐입니다(difficulty is only one ingredient in a high-quality benchmark). 벤치마크 산업 전체에 던지는 메시지로 읽힙니다.

정리

SOOHAK이 보여준 것을 다섯 가지로 정리합니다.

수학자가 처음부터 쓴 1,141문제 — 기존 콘테스트 재활용 없음, 105명, 31개 기관, 8억 원.
모델 게이트 기반 난이도 자동 분류 — 주관적 라벨 대신 이 작은 모델은 못 푼다 / 이 큰 모델도 못 푼다로 Mini와 Challenge를 나눔.
Refusal 서브셋 — 풀지 않는 능력을 처음으로 정량화. 어떤 모델도 50%를 못 넘기고, 컴퓨트 스케일링도 적용되지 않음.
인간 베이스라인 5개 프로파일 — 박사 연구자보다 올림피아드 학부생이 잘하는 task-format 효과를 명시적으로 측정.
자기비판 회고 — 시간, 인센티브, 지역, 답안 포맷 4가지를 다음 벤치마크 빌더에게 공개적으로 넘김.

데이터셋은 학습 오염을 막기 위해 한시적으로 비공개이고, 평가는 요청 기반으로 받습니다. 전체 공개는 2026년 말, NeurIPS 2026 final acceptance 이전 예정입니다.