MMLU-Pro
MMLU-Pro
MMLU-Pro는 2024년 공개된 MMLU의 후계 벤치마크다. MMLU가 프론티어 모델 기준으로 포화되자, 선택지를 늘리고 추론 비중을 강화해 변별력을 복원하려고 만들어졌다.
구성
약 12,000문항. MMLU의 쉬운 지식 문항을 걷어내고, TheoremQA·SciBench 등에서 끌어온 추론 중심 문항을 추가했다. 도메인은 수학, 물리, 화학, 법률, 공학, 심리학 등 14개로 재편됐다.
MMLU와의 차이
- 선택지 4 → 10개: 우연히 맞힐 확률이 25%에서 10%로 떨어진다.
- 추론 문항 비중 증가: 단순 사실 암기 문항이 크게 줄고, 다단계 추론이 필요한 문제가 중심이다.
- 점수 하락 폭: 프론티어 모델의 MMLU 점수 대비 14~16점 낮은 점수를 기록한다. 이 하락 폭이 변별력을 되살린다.
평가 방식
기본은 5-shot Chain-of-Thought. 모델이 사고 과정을 노출한 뒤 최종 선택지를 고르게 한다. CoT 유무에 따라 점수 차가 크다는 점이 특징이다.
현재 상태
출시 18개월이 지난 2026년 시점에서 상단이 다시 압축되는 중이다. 프론티어 모델이 80% 중후반까지 도달했지만, GPQA Diamond나 HLE만큼 빠르게 포화되진 않아 여전히 주요 지식 벤치마크로 참조된다.