HLE

HLE(Humanity's Last Exam)는 "인류 마지막 시험"이라는 이름으로 불리는 초고난도 벤치마크입니다. 기존 벤치마크들이 프론티어 모델에 의해 포화 상태에 이르자, 현존하는 AI의 한계를 측정하기 위해 설계되었습니다.

구성

총 2,500개의 문항으로 구성되어 있습니다. 수학, 과학, 인문학 등 광범위한 분야에 걸쳐 세계 최고 수준의 전문가들이 출제한 문제들로 이루어져 있습니다. 기존 데이터셋이나 인터넷에서 쉽게 찾을 수 없는 독창적인 문제들이 포함되어 있어, 단순 암기나 검색으로는 풀 수 없도록 설계되었습니다.

평가 방식

도구 사용 여부에 따라 두 가지 조건으로 평가합니다. 도구 없이(no tools) 순수하게 모델의 내재적 지식과 추론만으로 푸는 경우와, 코드 실행이나 검색 등 외부 도구를 활용할 수 있는 경우를 나누어 측정합니다.

Mythos 시스템 카드 주요 수치

모델	도구 없음	도구 사용
Mythos	56.8%	64.7%
Opus 4.6	40.0%	53.1%

Mythos는 도구 없이 56.8%, 도구를 사용하면 64.7%를 기록했습니다. Opus 4.6 대비 각각 약 17%p, 12%p 높은 수치입니다. 도구 사용 시 성능이 크게 향상되는 점은, HLE 문제 중 상당수가 계산이나 정보 검색이 필요한 유형임을 시사합니다. 그럼에도 불구하고 Mythos조차 65%에 미치지 못한다는 점에서, HLE는 여전히 AI에게 도전적인 벤치마크로 남아 있습니다.

제작 과정

Center for AI Safety와 학술 기관들이 공동 주관했으며, 1,000명 가까운 도메인 전문가가 출제에 참여했습니다. 각 문항은 전문가 리뷰를 거쳐 단순 검색·암기로는 풀리지 않도록 필터링됐습니다. Nature에 2026년 게재되면서 학술적 표준성을 확보했습니다.

포화 저항성 설계

전문가 큐레이션: 크라우드소싱이 아닌 박사급 전문가 출제입니다.
극단적 난이도: 인간 전문가 기준 정답률도 과목별로 90% 내외입니다.
광범위한 영역: 수학·인문학·자연과학을 아울러 특정 영역 공략으로 점수를 띄우기 어렵습니다.
형식 다양성: 단답형, 객관식, 멀티모달이 섞여 있어 하나의 포맷으로 최적화할 수 없습니다.

MMLU·GPQA Diamond가 포화되는 흐름 속에서 "차세대 종합 지식 프론티어"로 자리 잡았습니다. 관련 벤치마크로는 수학 특화의 FrontierMath, 추상 추론의 ARC-AGI-2가 같은 프론티어 계열에 속합니다.