HLE

HLE(Humanity's Last Exam)는 "인류 마지막 시험"이라는 이름으로 불리는 초고난도 벤치마크다. 기존 벤치마크들이 프론티어 모델에 의해 포화 상태에 이르자, 현존하는 AI의 한계를 측정하기 위해 설계되었다.

구성

총 2,500개의 문항으로 구성되어 있다. 수학, 과학, 인문학 등 광범위한 분야에 걸쳐 세계 최고 수준의 전문가들이 출제한 문제들로 이루어져 있다. 기존 데이터셋이나 인터넷에서 쉽게 찾을 수 없는 독창적인 문제들이 포함되어 있어, 단순 암기나 검색으로는 풀 수 없도록 설계되었다.

평가 방식

도구 사용 여부에 따라 두 가지 조건으로 평가한다. 도구 없이(no tools) 순수하게 모델의 내재적 지식과 추론만으로 푸는 경우와, 코드 실행이나 검색 등 외부 도구를 활용할 수 있는 경우를 나누어 측정한다.

Mythos 시스템 카드 주요 수치

모델	도구 없음	도구 사용
Mythos	56.8%	64.7%
Opus 4.6	40.0%	53.1%

Mythos는 도구 없이 56.8%, 도구를 사용하면 64.7%를 기록했다. Opus 4.6 대비 각각 약 17%p, 12%p 높은 수치다. 도구 사용 시 성능이 크게 향상되는 점은, HLE 문제 중 상당수가 계산이나 정보 검색이 필요한 유형임을 시사한다. 그럼에도 불구하고 Mythos조차 65%에 미치지 못한다는 점에서, HLE는 여전히 AI에게 도전적인 벤치마크로 남아 있다.