MMLU-Pro

🏷️ 벤치마크 AI평가 정보

MMLU-Pro

MMLU-Pro는 2024년 공개된 MMLU의 후계 벤치마크다. MMLU가 프론티어 모델 기준으로 포화되자, 선택지를 늘리고 추론 비중을 강화해 변별력을 복원하려고 만들어졌다.

구성

약 12,000문항. MMLU의 쉬운 지식 문항을 걷어내고, TheoremQA·SciBench 등에서 끌어온 추론 중심 문항을 추가했다. 도메인은 수학, 물리, 화학, 법률, 공학, 심리학 등 14개로 재편됐다.

MMLU와의 차이

평가 방식

기본은 5-shot Chain-of-Thought. 모델이 사고 과정을 노출한 뒤 최종 선택지를 고르게 한다. CoT 유무에 따라 점수 차가 크다는 점이 특징이다.

현재 상태

출시 18개월이 지난 2026년 시점에서 상단이 다시 압축되는 중이다. 프론티어 모델이 80% 중후반까지 도달했지만, GPQA Diamond나 HLE만큼 빠르게 포화되진 않아 여전히 주요 지식 벤치마크로 참조된다.