FrontierMath

🏷️ 벤치마크 AI평가

FrontierMath

FrontierMath는 Epoch AI가 2024년 공개한 초고난도 수학 벤치마크입니다. 전문 수학자들이 원본으로 만든 미공개 문제로 구성되며, 연구 수준의 수학 추론을 평가합니다.

구성

Tier 1~3: 약 300문항. 학부 상급~대학원 초기 수준입니다. 분야는 정수론, 대수기하, 조합론, 위상수학, 해석학 등 전반입니다.
Tier 4: 약 50문항. 프로 수학자가 며칠씩 걸리는 연구 수준입니다.

모든 문제가 비공개입니다. 공개된 샘플은 전체의 극히 일부뿐이며, 본 평가 문제는 훈련 데이터에 들어갈 수 없습니다.

평가 방식

모델에게 파이썬과 계산 도구 사용을 허용합니다.
정답은 명확한 수치나 기호식으로 검증 가능한 형태로 설계됐습니다.
Tier별 정답률을 별도로 보고합니다.

현재 선두

2026년 4월 기준 GPT-5.4가 약 47.6%로 선두입니다. 대부분의 프론티어 모델은 Tier 4에서 한 자리 수에 머물러 있습니다. 프론티어 모델이 GSM8K·MATH를 포화시킨 뒤에도 FrontierMath는 여전히 인간 수학자와 큰 격차를 유지하고 있습니다.

설계 특징

전문가 큐레이션: 크라우드소싱이 아니라 수학 박사급 출제자가 직접 만듭니다.
비공개 문제 풀: 훈련 오염이 구조적으로 불가능합니다.
도구 사용 허용: 상징적 계산·수치 검증을 포함한 "도구 쓰는 수학자" 워크플로를 평가합니다.

포화에 강한 설계 원칙의 교과서적 사례로 꼽힙니다.