Gemini 2.5 Pro Deep Think - GPQA Diamond 82

🏷️ 정보 LLM 벤치마크

Google DeepMind가 6월 22일 Gemini 2.5 Pro의 새 모드를 공개했습니다. 이름은 Deep Think. GPQA Diamond에서 82.4%를 기록해 박사급 과학 문제 벤치마크에서 주목을 받았습니다.

GPQA Diamond란

GPQA Diamond는 물리학, 화학, 생물학 분야 박사급 난도의 4지선다 문제 198개로 구성된 벤치마크입니다. 문제 선별 기준이 까다롭습니다. 해당 분야 박사가 두 명 모두 맞히고, 웹 검색이 가능한 비전공자 세 명 중 한 명 이하만 맞혀야 후보에 오릅니다. 지식이 아닌 추론을 측정하려는 설계입니다.

사람 기준점을 보면, 해당 분야 박사 학위 소지자의 평균 정답률이 약 65~70%입니다. Gemini 2.5 Pro Deep Think는 82.4%로 이 기준선을 상당히 넘었습니다. Epoch AI가 독립 평가에서 확인한 수치도 84%로 비슷한 범위였습니다.

Deep Think가 기존 모드와 다른 점

Gemini-2.5 Pro에는 이전에도 Flash Thinking이라는 추론 모드가 있었습니다. Deep Think는 그것과 어떻게 다른가, 라는 질문이 자연스럽게 나옵니다.

Flash Thinking은 빠른 사고(fast thinking)에 가깝습니다. 내부적으로 중간 추론 단계를 거치지만 응답 속도가 우선입니다. Deep Think는 반대 방향으로 설계됐습니다. 응답 전에 여러 가설을 동시에 탐색하고, 그 과정에서 아이디어를 결합하거나 폐기하면서 최선의 경로를 찾습니다. Google의 설명에 따르면 "여러 아이디어를 병렬로 생성하고, 시간이 지나면서도 수정·결합을 반복한다"는 메커니즘입니다.

훈련 단계에서는 모델이 확장된 추론 경로를 적극 활용하도록 유도하는 강화학습 기법을 새로 도입했습니다. 그 결과, 추론 토큰을 더 많이 쓸수록 어려운 문제에서 정확도가 높아지는 특성이 생겼습니다.

추론 예산

API 사용자에게는 thinking budget이라는 제어 파라미터가 제공됩니다. 내부 추론에 쓸 수 있는 토큰의 상한을 직접 설정하는 방식입니다.

이 설계의 핵심은 속도와 정확도 사이의 조절입니다. 실시간 챗봇처럼 응답 지연이 치명적인 상황에서는 budget을 줄여 빠르게 응답합니다. 수학 증명이나 코드 디버깅처럼 정확도가 우선인 경우에는 budget을 크게 잡아 모델이 더 오래 생각하도록 합니다. 단일 모델이 태스크 특성에 따라 다른 연산량을 할당할 수 있는 구조입니다.

사용자에게는 생각 요약(thought summaries)이 제공됩니다. 모델이 어떤 가설을 검토했고 최종 답으로 왜 그 경로를 택했는지를 보여주는 내용입니다. 디버깅과 검증에 도움이 됩니다.

벤치마크 성능

벤치마크	점수
GPQA Diamond	82.4%
MMLU-Pro	89.8%

GPQA Diamond와 함께 MMLU-Pro 89.8%를 기록했습니다. MMLU-Pro는 대학원 수준의 전문 지식 측정 벤치마크입니다. 수학, 과학, 코딩 전반에서 성능이 개선됐다는 것이 Google의 공식 설명입니다.

USAMO(미국 수학 올림피아드), LiveCodeBench(코딩 벤치마크), MMMU(멀티모달 이해) 등 다른 어려운 벤치마크에서도 Deep Think 모드가 기본 Gemini 2.5 Pro 대비 수 퍼센트포인트 향상을 보여줬다는 내부 평가가 있습니다.

사용 방법과 접근

현재 Deep Think는 Google AI Ultra 구독자에게 일 사용 횟수 제한 방식으로 제공됩니다. Gemini 앱에서 모델 드롭다운에서 2.5 Pro를 선택한 뒤 프롬프트 입력창의 "Deep Think" 토글을 켜면 됩니다.

API를 통한 개발자 접근은 별도 일정으로 추가됩니다. 추론 예산 파라미터를 직접 제어하는 기능은 API를 통해서만 사용 가능합니다.

실제 사용 시 고려할 것

Deep Think는 어려운 문제에서 정확도를 높이는 데 적합하지만, 응답 지연이 크게 늘어납니다. 어려운 프롬프트에서는 수십 초에서 수 분까지 걸릴 수 있습니다. 실시간 대화나 빠른 응답이 필요한 워크플로우에는 맞지 않습니다.

82.4%라는 GPQA Diamond 점수도 맥락이 필요합니다. 같은 시점의 다른 프런티어 모델들과 나란히 비교한 공식 숫자가 제한적이라, 이 수치가 경쟁 우위를 나타내는지 단순히 어려운 벤치마크에서의 절대 성능인지를 판단하기 어렵습니다. 독자가 직접 확인할 수 있는 공신력 있는 출처로는 Epoch AI의 GPQA Diamond 평가와 Artificial Analysis 리더보드가 있습니다.

수학, 물리, 생물, 화학처럼 정답이 명확히 검증 가능한 분야에서는 효과가 두드러집니다. 반면 오픈엔드 창작, 주관적 판단이 필요한 영역에서는 추론 예산을 늘린다고 해서 품질이 비례해 올라가지 않습니다.