HLE

🏷️ 벤치마크 AI평가

HLE

HLE(Humanity's Last Exam)는 "인류 마지막 시험"이라는 이름으로 불리는 초고난도 벤치마크다. 기존 벤치마크들이 프론티어 모델에 의해 포화 상태에 이르자, 현존하는 AI의 한계를 측정하기 위해 설계되었다.

구성

총 2,500개의 문항으로 구성되어 있다. 수학, 과학, 인문학 등 광범위한 분야에 걸쳐 세계 최고 수준의 전문가들이 출제한 문제들로 이루어져 있다. 기존 데이터셋이나 인터넷에서 쉽게 찾을 수 없는 독창적인 문제들이 포함되어 있어, 단순 암기나 검색으로는 풀 수 없도록 설계되었다.

평가 방식

도구 사용 여부에 따라 두 가지 조건으로 평가한다. 도구 없이(no tools) 순수하게 모델의 내재적 지식과 추론만으로 푸는 경우와, 코드 실행이나 검색 등 외부 도구를 활용할 수 있는 경우를 나누어 측정한다.

Mythos 시스템 카드 주요 수치

모델

도구 없음

도구 사용

Mythos

56.8%

64.7%

Opus 4.6

40.0%

53.1%

Mythos는 도구 없이 56.8%, 도구를 사용하면 64.7%를 기록했다. Opus 4.6 대비 각각 약 17%p, 12%p 높은 수치다. 도구 사용 시 성능이 크게 향상되는 점은, HLE 문제 중 상당수가 계산이나 정보 검색이 필요한 유형임을 시사한다. 그럼에도 불구하고 Mythos조차 65%에 미치지 못한다는 점에서, HLE는 여전히 AI에게 도전적인 벤치마크로 남아 있다.

제작 과정

Center for AI Safety와 학술 기관들이 공동 주관했으며, 1,000명 가까운 도메인 전문가가 출제에 참여했다. 각 문항은 전문가 리뷰를 거쳐 단순 검색·암기로는 풀리지 않도록 필터링됐다. Nature에 2026년 게재되면서 학술적 표준성을 확보했다.

포화 저항성 설계

MMLU·GPQA Diamond가 포화되는 흐름 속에서 "차세대 종합 지식 프론티어"로 자리 잡았다. 관련 벤치마크로는 수학 특화의 FrontierMath, 추상 추론의 ARC-AGI-2가 같은 프론티어 계열에 속한다.