GDPval

🏷️ 벤치마크 AI평가

GDPval

GDPval은 OpenAI가 주도해 공개한 직무 기반 모델 평가 벤치마크입니다. "모델이 경제적 가치가 있는 일을 실제로 해낼 수 있는가"를 측정하는 방향으로 설계됐습니다. 학술 지식 위주의 벤치마크와 대비되는 프레이밍입니다.

구성

미국 GDP에 크게 기여하는 상위 9개 산업을 선정했습니다.
그 안에서 대표 44개 직업군을 뽑았습니다. 소프트웨어 개발자, 변호사, 간호사, 기계 엔지니어 등입니다.
각 직업마다 "실제 업무 산출물"을 요구하는 과제를 설계했습니다. 단답이 아니라 문서, 코드, 보고서, 분석 결과 같은 완성물입니다.

평가 방식

모델이 생성한 산출물을 해당 직업의 전문가가 직접 채점합니다.
평가 기준은 실제 업무 수준에서 "쓸 만한가"로 조율됩니다.
정확성뿐 아니라 형식, 관행, 완결성 같은 직무적 품질을 반영합니다.

주요 수치

2026년 4월 기준 GPT-5.4가 약 83%입니다. 프론티어 모델이 여러 학술 벤치마크에서 90%+를 기록하는 와중에도 GDPval은 직무 맥락에서의 실제 사용성 관점에서 차이를 드러냅니다.

의의

생성형 산출물 평가: 객관식이 아니라 직업 산출물을 본다는 점에서 포화 저항성이 높습니다.
도메인 전문가 채점: 크라우드소싱이 아닌 실무자 기준입니다.
경제적 관점: Stanford HAI가 지적한 "벤치마크 점수 vs 실제 배포 가치 격차" 문제를 정면으로 겨냥합니다.

OfficeQA Pro와 함께 "실제 업무 기반 평가" 계열의 대표 벤치마크로 자리 잡았습니다.