MMLU

🏷️ 벤치마크 AI평가 정보

MMLU

MMLU(Massive Multitask Language Understanding)는 2020년 Hendrycks 등이 공개한 다지선다 지식 평가 벤치마크다. 인문학, 사회과학, STEM, 기타 전문 분야를 포괄하는 57개 과목에서 4지선다 문제를 푼다. 오랫동안 LLM의 "종합 지식" 지표로 사용됐다.

구성

총 약 15,900문항이며 57개 과목으로 나뉜다. 문항 소스는 미국 표준화 시험(SAT, GRE 등), 의사·변호사 자격시험, 대학 과정 교재 등이다. 각 문항은 단일 정답을 가진 4지선다 형식이다.

평가 방식

모델에게 문제와 4개 선택지를 제시하고, 맞춘 비율을 정확도로 보고한다. 많은 경우 5-shot 프롬프팅이 관행으로 쓰인다. 채점은 단순 일치 비교라 자동화가 쉽고 재현성이 높다.

포화 상태

2024년 이후 프론티어 모델이 대부분 88~94% 구간에 몰리면서 변별력을 상실했다. 2026년 4월 기준 Gemini 3.1 Pro 94.3%, GPT-5.4 약 92%, Claude Opus 4.6 91.3%로 모델 간 격차가 노이즈 수준이다. Vellum 등 리더보드는 MMLU를 "outdated"로 분류해 비교에서 제외하기 시작했다.

한계

이러한 문제를 보완해 선택지를 4→10개로 늘리고 추론 강도를 높인 MMLU-Pro가 2024년 후계로 등장했다.