MMMU-Pro
MMMU-Pro
MMMU-Pro는 MMMU(Massive Multi-discipline Multimodal Understanding)의 강화 버전이다. 이미지와 텍스트를 함께 이해해야 풀 수 있는 대학 수준 문제들로 구성되며, 멀티모달 모델 평가의 현행 표준 중 하나다.
MMMU 원본
- 2023년 공개.
- 약 11,500문항, 6개 전공 영역(예술, 경영, 과학, 의학, 인문사회, 기술공학)에 걸친 30개 세부 분야.
- 문제에 차트, 다이어그램, 화학 구조식, 악보, 의료 영상 등 30종 이상의 이미지 유형이 섞여 있다.
Pro 버전의 강화
- 순수 텍스트 단서 제거: 원본 중 이미지 없이도 풀리는 문항을 걸러냈다.
- 선택지 10개: 객관식 우연 정답 확률을 낮췄다.
- Vision-only 모드: 문제 자체를 스크린샷으로 렌더링해서, 모델이 이미지 속 텍스트까지 읽어야 한다.
이 세 조합으로 원본 대비 점수가 크게 떨어지면서 프론티어 모델 간 변별력이 복원됐다.
평가 방식
표준 객관식 정확도. Vision-only 모드에서는 텍스트 입력 자체가 없으므로 OCR과 추론이 통합된 형태로 평가된다.
의의
언어 모델의 지식 벤치마크가 MMLU → MMLU-Pro로 진화한 것과 같은 패턴을, 멀티모달 영역에서도 MMMU → MMMU-Pro가 보여준다. 포화를 피하는 설계 원칙(선택지 확장, 순수 기억 차단, 양식 강제)이 공통으로 적용된 사례다.