GDPval
GDPval
GDPval은 OpenAI가 주도해 공개한 직무 기반 모델 평가 벤치마크다. "모델이 경제적 가치가 있는 일을 실제로 해낼 수 있는가"를 측정하는 방향으로 설계됐다. 학술 지식 위주의 벤치마크와 대비되는 프레이밍이다.
구성
- 미국 GDP에 크게 기여하는 상위 9개 산업 선정.
- 그 안에서 대표 44개 직업군을 뽑았다: 소프트웨어 개발자, 변호사, 간호사, 기계 엔지니어 등.
- 각 직업마다 "실제 업무 산출물"을 요구하는 과제를 설계했다. 단답이 아니라 문서, 코드, 보고서, 분석 결과 같은 완성물이다.
평가 방식
- 모델이 생성한 산출물을 해당 직업의 전문가가 직접 채점한다.
- 평가 기준은 실제 업무 수준에서 "쓸 만한가"로 조율된다.
- 정확성뿐 아니라 형식, 관행, 완결성 같은 직무적 품질을 반영한다.
주요 수치
2026년 4월 기준 GPT-5.4가 약 83%. 프론티어 모델이 여러 학술 벤치마크에서 90%+를 기록하는 와중에도 GDPval은 직무 맥락에서의 실제 사용성 관점에서 차이를 드러낸다.
의의
- 생성형 산출물 평가: 객관식이 아니라 직업 산출물을 본다는 점에서 포화 저항성이 높다.
- 도메인 전문가 채점: 크라우드소싱이 아닌 실무자 기준.
- 경제적 관점: Stanford HAI가 지적한 "벤치마크 점수 vs 실제 배포 가치 격차" 문제를 정면으로 겨냥한다.
OfficeQA Pro와 함께 "실제 업무 기반 평가" 계열의 대표 벤치마크로 자리 잡았다.