GPQA Diamond

🏷️ 벤치마크 AI평가

GPQA Diamond

GPQA(Graduate-Level Google-Proof Q&A) Diamond은 대학원 수준의 과학 문제를 다루는 고난도 질의응답 벤치마크다. "Google-Proof"라는 이름이 말해주듯, 구글 검색을 해도 쉽게 답을 찾을 수 없는 문제들로 구성되어 있다. 해당 분야의 전문가만이 안정적으로 풀 수 있도록 설계되었다.

구성

총 198개의 문항으로 이루어져 있으며, 물리학, 화학, 생물학 등 다양한 과학 분야를 아우른다. "Diamond"은 GPQA 데이터셋 중에서 난이도가 가장 높은 서브셋을 의미한다.

평가 방식

각 문항에 대해 5회 시도(pass@5 방식이 아닌, 반복 측정을 통한 안정적인 정확도 추정)를 수행하여 결과를 산출한다. 선택형 문제로 출제되며, 단순 암기가 아닌 깊은 추론 능력이 요구된다.

Mythos 시스템 카드 주요 수치

모델

정확도

Mythos

94.5%

Gemini 3.1 Pro

94.3%

GPT-5.4

92.8%

Opus 4.6

91.3%

GPQA Diamond은 프론티어 모델들 사이에서 변별력이 줄어들고 있는 벤치마크 중 하나다. Mythos는 94.5%로 선두를 기록했지만, Gemini 3.1 Pro(94.3%), GPT-5.4(92.8%) 등과의 격차가 크지 않다. 이는 최상위 모델들이 대학원 수준 과학 추론에서 포화 단계에 접어들고 있음을 보여준다.

제작 설계

"Google-proof"라는 이름이 가리키듯, 비전공자가 구글 검색과 30분 이상을 써도 정답률이 낮게 나오도록 조정된 문항만 살렸다. 제작 단계에서 박사과정/박사급 전문가가 작성하고, 다른 전문가가 검증하고, 비전공자가 풀어보는 3단계 필터를 거쳤다.

현행 위치

프론티어 모델 점수가 90%대 초중반에 몰리면서 상단에서는 포화 경향이 나타나지만, 중위권 모델까지 포함하면 여전히 60~90% 구간에서 뚜렷한 차이를 만든다. MMLU·MMLU-Pro 대비 추론 난이도가 훨씬 높고 훈련 오염 저항성도 강한 편이다. 상단을 더 밀어올린 후속 격상 설계가 요구되는 단계로 평가된다.

더 광범위한 학문 프론티어 평가로는 HLE가, 수학 특화로는 FrontierMath가 같은 계보에 있다.