GSM8K
GSM8K
GSM8K는 2021년 OpenAI가 공개한 초등 수학 문장제 벤치마크다. "Grade School Math 8K"의 약자로, 초등학교 수준의 산술 문제 8,500개로 구성된다. 다단계 추론을 요구하는 대표적 수학 벤치마크로 오래 쓰였다.
구성
훈련 7,500문항, 테스트 1,000문항. 각 문제는 사람이 작성한 영어 문장제로, 2~8단계의 기본 산술 연산(+, −, ×, ÷)으로 풀린다. 정답은 최종 숫자 하나로 채점된다.
평가 방식
- Chain-of-Thought 프롬프팅: 모델이 풀이 과정을 쓰고 마지막에
####뒤에 숫자를 출력하게 한다. - 자동 채점: 최종 숫자가 정답과 일치하면 정답.
- Self-consistency: 여러 번 샘플링한 뒤 다수결로 답을 고르는 변형도 자주 쓰인다.
포화 상태
2023년부터 프론티어 모델이 95%를 넘었고, 2026년 기준 사실상 99%대로 포화됐다. 이는 "AI가 초등 수학을 다 풀 수 있다"는 뜻이 아니라, 이 데이터셋의 특정 난이도·형식 분포에 대해 변별력이 사라졌다는 뜻이다.
후속 벤치마크
- MATH: 경시대회 수준. 프론티어 모델이 진입 중.
- *FrontierMath*: 연구 수준. 현재 선두도 50% 미만.
- *USAMO*: 미국 수학 올림피아드. 기호 증명 평가.
GSM8K는 수학 벤치마크 계보에서 "1세대" 역할을 했지만, 이제는 기본 능력 체크 용도로만 의미가 남아 있다.