MMMLU
MMMLU
MMMLU(Multilingual MMLU)는 MMLU의 다국어 확장 벤치마크이다. 57개 과목에 걸쳐 14개 비영어 언어로 모델의 지식과 추론 능력을 평가한다.
주요 결과
모델 |
정확도 |
|---|---|
Gemini 3.1 Pro |
92.6–93.6% |
Mythos |
92.67% |
Opus 4.6 |
91.1% |
Mythos는 92.67%를 달성하여 Opus 4.6(91.1%)를 상회하였다. Gemini 3.1 Pro는 92.6~93.6% 범위의 성능을 보여 Mythos와 유사한 수준이었다. 상위 모델 간의 차이가 1~2%p 이내로 수렴하고 있어, 다국어 지식 평가에서 최전선 모델들이 비슷한 수준에 도달하고 있음을 시사한다.