MMMU-Pro

🏷️ 벤치마크 AI평가

MMMU-Pro

MMMU-Pro는 MMMU(Massive Multi-discipline Multimodal Understanding)의 강화 버전입니다. 이미지와 텍스트를 함께 이해해야 풀 수 있는 대학 수준 문제들로 구성되며, 멀티모달 모델 평가의 현행 표준 중 하나입니다.

MMMU 원본

2023년 공개됐습니다.
약 11,500문항, 6개 전공 영역(예술, 경영, 과학, 의학, 인문사회, 기술공학)에 걸친 30개 세부 분야입니다.
문제에 차트, 다이어그램, 화학 구조식, 악보, 의료 영상 등 30종 이상의 이미지 유형이 섞여 있습니다.

Pro 버전의 강화

순수 텍스트 단서 제거: 원본 중 이미지 없이도 풀리는 문항을 걸러냈습니다.
선택지 10개: 객관식 우연 정답 확률을 낮췄습니다.
Vision-only 모드: 문제 자체를 스크린샷으로 렌더링해서, 모델이 이미지 속 텍스트까지 읽어야 합니다.

이 세 조합으로 원본 대비 점수가 크게 떨어지면서 프론티어 모델 간 변별력이 복원됐습니다.

평가 방식

표준 객관식 정확도입니다. Vision-only 모드에서는 텍스트 입력 자체가 없으므로 OCR과 추론이 통합된 형태로 평가됩니다.

의의

언어 모델의 지식 벤치마크가 MMLU → MMLU-Pro로 진화한 것과 같은 패턴을, 멀티모달 영역에서도 MMMU → MMMU-Pro가 보여줍니다. 포화를 피하는 설계 원칙(선택지 확장, 순수 기억 차단, 양식 강제)이 공통으로 적용된 사례입니다.