GSM8K

🏷️ 벤치마크 AI평가 정보

GSM8K

GSM8K는 2021년 OpenAI가 공개한 초등 수학 문장제 벤치마크다. "Grade School Math 8K"의 약자로, 초등학교 수준의 산술 문제 8,500개로 구성된다. 다단계 추론을 요구하는 대표적 수학 벤치마크로 오래 쓰였다.

구성

훈련 7,500문항, 테스트 1,000문항. 각 문제는 사람이 작성한 영어 문장제로, 2~8단계의 기본 산술 연산(+, −, ×, ÷)으로 풀린다. 정답은 최종 숫자 하나로 채점된다.

평가 방식

포화 상태

2023년부터 프론티어 모델이 95%를 넘었고, 2026년 기준 사실상 99%대로 포화됐다. 이는 "AI가 초등 수학을 다 풀 수 있다"는 뜻이 아니라, 이 데이터셋의 특정 난이도·형식 분포에 대해 변별력이 사라졌다는 뜻이다.

후속 벤치마크

GSM8K는 수학 벤치마크 계보에서 "1세대" 역할을 했지만, 이제는 기본 능력 체크 용도로만 의미가 남아 있다.