GPQA Diamond
GPQA Diamond
GPQA(Graduate-Level Google-Proof Q&A) Diamond은 대학원 수준의 과학 문제를 다루는 고난도 질의응답 벤치마크다. "Google-Proof"라는 이름이 말해주듯, 구글 검색을 해도 쉽게 답을 찾을 수 없는 문제들로 구성되어 있다. 해당 분야의 전문가만이 안정적으로 풀 수 있도록 설계되었다.
구성
총 198개의 문항으로 이루어져 있으며, 물리학, 화학, 생물학 등 다양한 과학 분야를 아우른다. "Diamond"은 GPQA 데이터셋 중에서 난이도가 가장 높은 서브셋을 의미한다.
평가 방식
각 문항에 대해 5회 시도(pass@5 방식이 아닌, 반복 측정을 통한 안정적인 정확도 추정)를 수행하여 결과를 산출한다. 선택형 문제로 출제되며, 단순 암기가 아닌 깊은 추론 능력이 요구된다.
Mythos 시스템 카드 주요 수치
모델 |
정확도 |
|---|---|
Mythos |
94.5% |
Gemini 3.1 Pro |
94.3% |
GPT-5.4 |
92.8% |
Opus 4.6 |
91.3% |
GPQA Diamond은 프론티어 모델들 사이에서 변별력이 줄어들고 있는 벤치마크 중 하나다. Mythos는 94.5%로 선두를 기록했지만, Gemini 3.1 Pro(94.3%), GPT-5.4(92.8%) 등과의 격차가 크지 않다. 이는 최상위 모델들이 대학원 수준 과학 추론에서 포화 단계에 접어들고 있음을 보여준다.
제작 설계
"Google-proof"라는 이름이 가리키듯, 비전공자가 구글 검색과 30분 이상을 써도 정답률이 낮게 나오도록 조정된 문항만 살렸다. 제작 단계에서 박사과정/박사급 전문가가 작성하고, 다른 전문가가 검증하고, 비전공자가 풀어보는 3단계 필터를 거쳤다.
- 전문가 작성·검증: 크라우드소싱이 아닌 도메인 전공자 출제.
- 비전공자 실패율 기준: 검색·상식으로 풀리는 문항을 제거.
- 소규모 고난도: 198문항으로 많지 않지만 문항당 난이도가 매우 높다.
현행 위치
프론티어 모델 점수가 90%대 초중반에 몰리면서 상단에서는 포화 경향이 나타나지만, 중위권 모델까지 포함하면 여전히 60~90% 구간에서 뚜렷한 차이를 만든다. MMLU·MMLU-Pro 대비 추론 난이도가 훨씬 높고 훈련 오염 저항성도 강한 편이다. 상단을 더 밀어올린 후속 격상 설계가 요구되는 단계로 평가된다.
더 광범위한 학문 프론티어 평가로는 HLE가, 수학 특화로는 FrontierMath가 같은 계보에 있다.