OfficeQA Pro

🏷️ 벤치마크 AI평가 정보

OfficeQA Pro

OfficeQA Pro는 실제 오피스 업무 환경을 모사한 멀티모달 평가 벤치마크다. 문서, 스프레드시트, 프레젠테이션, 이메일 등 지식 근로자가 매일 다루는 파일을 읽고, 그 안의 정보로 질문에 답하는 과제를 다룬다.

설계 의도

MMLU·GPQA Diamond처럼 학문적 지식을 묻는 벤치마크와 달리, "엔터프라이즈 환경에서 모델이 실제로 쓸모가 있는가"를 측정하려는 방향이다. GDPval과 함께 "경제적 가치가 있는 일을 할 수 있는가"를 평가하는 흐름에 속한다.

특징

의의

학술 벤치마크에서 포화된 모델들이 실제 업무 문서 앞에서 얼마나 차이가 나는지를 드러내는 용도로 쓰인다. Stanford HAI가 지적한 "벤치마크 점수 vs 실제 배포 성능 격차"를 좁히려는 시도 중 하나로 분류된다.