MMMLU

🏷️ 벤치마크 AI평가

MMMLU

MMMLU(Multilingual MMLU)는 MMLU의 다국어 확장 벤치마크이다. 57개 과목에 걸쳐 14개 비영어 언어로 모델의 지식과 추론 능력을 평가한다.

주요 결과

모델

정확도

Gemini 3.1 Pro

92.6–93.6%

Mythos

92.67%

Opus 4.6

91.1%

Mythos는 92.67%를 달성하여 Opus 4.6(91.1%)를 상회하였다. Gemini 3.1 Pro는 92.6~93.6% 범위의 성능을 보여 Mythos와 유사한 수준이었다. 상위 모델 간의 차이가 1~2%p 이내로 수렴하고 있어, 다국어 지식 평가에서 최전선 모델들이 비슷한 수준에 도달하고 있음을 시사한다.