FrontierMath
FrontierMath
FrontierMath는 Epoch AI가 2024년 공개한 초고난도 수학 벤치마크다. 전문 수학자들이 원본으로 만든 미공개 문제로 구성되며, 연구 수준의 수학 추론을 평가한다.
구성
- Tier 1–3: 약 300문항. 학부 상급~대학원 초기 수준. 분야는 정수론, 대수기하, 조합론, 위상수학, 해석학 등 전반.
- Tier 4: 약 50문항. 프로 수학자가 며칠씩 걸리는 연구 수준.
모든 문제가 비공개다. 공개된 샘플은 전체의 극히 일부뿐이며, 본 평가 문제는 훈련 데이터에 들어갈 수 없다.
평가 방식
- 모델에게 파이썬과 계산 도구 사용을 허용한다.
- 정답은 명확한 수치나 기호식으로 검증 가능한 형태로 설계됐다.
- Tier별 정답률을 별도로 보고한다.
현재 선두
2026년 4월 기준 GPT-5.4가 약 47.6%로 선두. 대부분의 프론티어 모델은 Tier 4에서 한 자리 수에 머물러 있다. 즉, 프론티어 모델이 GSM8K·MATH를 포화시킨 뒤에도 FrontierMath는 여전히 인간 수학자와 큰 격차를 유지한다.
설계 특징
- 전문가 큐레이션: 크라우드소싱이 아니라 수학 박사급 출제자가 직접 만든다.
- 비공개 문제 풀: 훈련 오염이 구조적으로 불가능.
- 도구 사용 허용: 상징적 계산·수치 검증을 포함한 "도구 쓰는 수학자" 워크플로를 평가.
포화에 강한 설계 원칙의 교과서적 사례로 꼽힌다.