MMLU

MMLU(Massive Multitask Language Understanding)는 2020년 Hendrycks 등이 공개한 다지선다 지식 평가 벤치마크다. 인문학, 사회과학, STEM, 기타 전문 분야를 포괄하는 57개 과목에서 4지선다 문제를 푼다. 오랫동안 LLM의 "종합 지식" 지표로 사용됐다.

구성

총 약 15,900문항이며 57개 과목으로 나뉜다. 문항 소스는 미국 표준화 시험(SAT, GRE 등), 의사·변호사 자격시험, 대학 과정 교재 등이다. 각 문항은 단일 정답을 가진 4지선다 형식이다.

평가 방식

모델에게 문제와 4개 선택지를 제시하고, 맞춘 비율을 정확도로 보고한다. 많은 경우 5-shot 프롬프팅이 관행으로 쓰인다. 채점은 단순 일치 비교라 자동화가 쉽고 재현성이 높다.

포화 상태

2024년 이후 프론티어 모델이 대부분 88~94% 구간에 몰리면서 변별력을 상실했다. 2026년 4월 기준 Gemini 3.1 Pro 94.3%, GPT-5.4 약 92%, Claude Opus 4.6 91.3%로 모델 간 격차가 노이즈 수준이다. Vellum 등 리더보드는 MMLU를 "outdated"로 분류해 비교에서 제외하기 시작했다.

한계

훈련 데이터 오염: 2020년 공개 이후 문제가 인터넷에 널리 퍼져 대규모 웹 크롤링 기반 학습에 포함될 가능성이 높다.
객관식 한계: 선택지에서 고르는 능력은 측정하지만, 정답을 직접 생성하는 능력은 측정하지 못한다.
영어 단일 언어: 다국어 능력에 대해선 아무것도 말해주지 않는다.

이러한 문제를 보완해 선택지를 4→10개로 늘리고 추론 강도를 높인 MMLU-Pro가 2024년 후계로 등장했다.