MMLU-Pro

🏷️ 벤치마크 AI평가

MMLU-Pro

MMLU-Pro는 2024년 공개된 MMLU의 후계 벤치마크입니다. MMLU가 프론티어 모델 기준으로 포화되자, 선택지를 늘리고 추론 비중을 강화해 변별력을 복원하려고 만들어졌습니다.

구성

약 12,000문항입니다. MMLU의 쉬운 지식 문항을 걷어내고, TheoremQA·SciBench 등에서 끌어온 추론 중심 문항을 추가했습니다. 도메인은 수학, 물리, 화학, 법률, 공학, 심리학 등 14개로 재편됐습니다.

MMLU와의 차이

선택지 4 → 10개: 우연히 맞힐 확률이 25%에서 10%로 떨어집니다.
추론 문항 비중 증가: 단순 사실 암기 문항이 크게 줄고, 다단계 추론이 필요한 문제가 중심입니다.
점수 하락 폭: 프론티어 모델의 MMLU 점수 대비 14~16점 낮은 점수를 기록합니다. 이 하락 폭이 변별력을 되살립니다.

평가 방식

기본은 5-shot Chain-of-Thought입니다. 모델이 사고 과정을 노출한 뒤 최종 선택지를 고르게 합니다. CoT 유무에 따라 점수 차가 크다는 점이 특징입니다.

현재 상태

출시 18개월이 지난 2026년 시점에서 상단이 다시 압축되는 중입니다. 프론티어 모델이 80% 중후반까지 도달했지만, GPQA Diamond나 HLE만큼 빠르게 포화되진 않아 여전히 주요 지식 벤치마크로 참조됩니다.