HLE
HLE
HLE(Humanity's Last Exam)는 "인류 마지막 시험"이라는 이름으로 불리는 초고난도 벤치마크다. 기존 벤치마크들이 프론티어 모델에 의해 포화 상태에 이르자, 현존하는 AI의 한계를 측정하기 위해 설계되었다.
구성
총 2,500개의 문항으로 구성되어 있다. 수학, 과학, 인문학 등 광범위한 분야에 걸쳐 세계 최고 수준의 전문가들이 출제한 문제들로 이루어져 있다. 기존 데이터셋이나 인터넷에서 쉽게 찾을 수 없는 독창적인 문제들이 포함되어 있어, 단순 암기나 검색으로는 풀 수 없도록 설계되었다.
평가 방식
도구 사용 여부에 따라 두 가지 조건으로 평가한다. 도구 없이(no tools) 순수하게 모델의 내재적 지식과 추론만으로 푸는 경우와, 코드 실행이나 검색 등 외부 도구를 활용할 수 있는 경우를 나누어 측정한다.
Mythos 시스템 카드 주요 수치
모델 |
도구 없음 |
도구 사용 |
|---|---|---|
Mythos |
56.8% |
64.7% |
Opus 4.6 |
40.0% |
53.1% |
Mythos는 도구 없이 56.8%, 도구를 사용하면 64.7%를 기록했다. Opus 4.6 대비 각각 약 17%p, 12%p 높은 수치다. 도구 사용 시 성능이 크게 향상되는 점은, HLE 문제 중 상당수가 계산이나 정보 검색이 필요한 유형임을 시사한다. 그럼에도 불구하고 Mythos조차 65%에 미치지 못한다는 점에서, HLE는 여전히 AI에게 도전적인 벤치마크로 남아 있다.
제작 과정
Center for AI Safety와 학술 기관들이 공동 주관했으며, 1,000명 가까운 도메인 전문가가 출제에 참여했다. 각 문항은 전문가 리뷰를 거쳐 단순 검색·암기로는 풀리지 않도록 필터링됐다. Nature에 2026년 게재되면서 학술적 표준성을 확보했다.
포화 저항성 설계
- 전문가 큐레이션: 크라우드소싱이 아닌 박사급 전문가 출제.
- 극단적 난이도: 인간 전문가 기준 정답률도 과목별로 90% 내외.
- 광범위한 영역: 수학·인문학·자연과학을 아울러 특정 영역 공략으로 점수를 띄우기 어렵다.
- 형식 다양성: 단답형, 객관식, 멀티모달이 섞여 있어 하나의 포맷으로 최적화할 수 없다.
MMLU·GPQA Diamond가 포화되는 흐름 속에서 "차세대 종합 지식 프론티어"로 자리 잡았다. 관련 벤치마크로는 수학 특화의 FrontierMath, 추상 추론의 ARC-AGI-2가 같은 프론티어 계열에 속한다.