FrontierMath

🏷️ 벤치마크 AI평가 정보

FrontierMath

FrontierMath는 Epoch AI가 2024년 공개한 초고난도 수학 벤치마크다. 전문 수학자들이 원본으로 만든 미공개 문제로 구성되며, 연구 수준의 수학 추론을 평가한다.

구성

모든 문제가 비공개다. 공개된 샘플은 전체의 극히 일부뿐이며, 본 평가 문제는 훈련 데이터에 들어갈 수 없다.

평가 방식

현재 선두

2026년 4월 기준 GPT-5.4가 약 47.6%로 선두. 대부분의 프론티어 모델은 Tier 4에서 한 자리 수에 머물러 있다. 즉, 프론티어 모델이 GSM8K·MATH를 포화시킨 뒤에도 FrontierMath는 여전히 인간 수학자와 큰 격차를 유지한다.

설계 특징

포화에 강한 설계 원칙의 교과서적 사례로 꼽힌다.