GPQA Diamond

🏷️ 벤치마크 AI평가

GPQA Diamond

GPQA(Graduate-Level Google-Proof Q&A) Diamond은 대학원 수준의 과학 문제를 다루는 고난도 질의응답 벤치마크다. "Google-Proof"라는 이름이 말해주듯, 구글 검색을 해도 쉽게 답을 찾을 수 없는 문제들로 구성되어 있다. 해당 분야의 전문가만이 안정적으로 풀 수 있도록 설계되었다.

구성

총 198개의 문항으로 이루어져 있으며, 물리학, 화학, 생물학 등 다양한 과학 분야를 아우른다. "Diamond"은 GPQA 데이터셋 중에서 난이도가 가장 높은 서브셋을 의미한다.

평가 방식

각 문항에 대해 5회 시도(pass@5 방식이 아닌, 반복 측정을 통한 안정적인 정확도 추정)를 수행하여 결과를 산출한다. 선택형 문제로 출제되며, 단순 암기가 아닌 깊은 추론 능력이 요구된다.

Mythos 시스템 카드 주요 수치

모델

정확도

Mythos

94.5%

Gemini 3.1 Pro

94.3%

GPT-5.4

92.8%

Opus 4.6

91.3%

GPQA Diamond은 프론티어 모델들 사이에서 변별력이 줄어들고 있는 벤치마크 중 하나다. Mythos는 94.5%로 선두를 기록했지만, Gemini 3.1 Pro(94.3%), GPT-5.4(92.8%) 등과의 격차가 크지 않다. 이는 최상위 모델들이 대학원 수준 과학 추론에서 포화 단계에 접어들고 있음을 보여준다.