GPQA Diamond
GPQA(Graduate-Level Google-Proof Q&A) Diamond은 대학원 수준의 과학 문제를 다루는 고난도 질의응답 벤치마크다. "Google-Proof"라는 이름이 말해주듯, 구글 검색을 해도 쉽게 답을 찾을 수 없는 문제들로 구성되어 있다. 해당 ...
16개의 게시물
GPQA(Graduate-Level Google-Proof Q&A) Diamond은 대학원 수준의 과학 문제를 다루는 고난도 질의응답 벤치마크다. "Google-Proof"라는 이름이 말해주듯, 구글 검색을 해도 쉽게 답을 찾을 수 없는 문제들로 구성되어 있다. 해당 ...
Petri는 AI 모델의 정렬(alignment) 상태를 자동으로 평가하는 외부 벤치마크이다. 모델이 안전하고 정직하게 동작하는지를 체계적으로 조사한다.
GraphWalks는 AI 모델의 긴 컨텍스트 이해력을 평가하는 벤치마크이다. BFS(너비 우선 탐색) 등 그래프 탐색 알고리즘을 256K에서 1M 토큰에 이르는 긴 컨텍스트 내에서 수행하도록 요구한다.
ECLeKTic는 12개 언어에 걸친 다국어 사실 환각(factual hallucination) 평가 벤치마크이다. 모델이 다양한 언어에서 사실에 기반한 정확한 정보를 생성하는지, 아니면 그럴듯하지만 틀린 내용을 만들어내는지를 측정한다.
SHADE-Arena는 AI 모델의 은밀한 부수 과제 수행 능력을 측정하는 정렬(alignment) 벤치마크다. AI가 주어진 지시를 충실히 따르는지, 아니면 숨겨진 목표를 몰래 추구할 수 있는지를 평가한다는 점에서, 일반적인 능력 벤치마크와는 성격이 다르다.
USAMO(United States of America Mathematical Olympiad)는 미국 수학 올림피아드 문제를 활용한 수학 추론 벤치마크다. 고등학교 및 대학 수준의 수학 경시대회 문제 중에서도 최고 난도에 해당하며, 증명 기반의 심층적 수학 추론 능력...
ART는 프롬프트 인젝션에 대한 AI 모델의 강건성을 평가하는 벤치마크이다. 공격자가 k번의 시도 내에 모델의 안전 장치를 우회하여 의도하지 않은 동작을 유도할 수 있는지를 측정한다.
Terminal-Bench는 터미널 환경에서 복합적인 작업을 수행하는 AI의 능력을 평가하는 벤치마크다. 명령줄 인터페이스를 통해 파일 시스템 탐색, 프로세스 관리, 네트워크 설정, 시스템 관리 등 실제 DevOps 및 시스템 운영에서 마주하는 다양한 과제를 다룬다.
OSWorld는 데스크톱 GUI 환경에서 AI 모델의 과제 수행 능력을 평가하는 벤치마크이다. 모델이 실제 운영체제 화면을 보고 마우스 클릭, 키보드 입력 등의 동작을 수행하여 주어진 작업을 완료할 수 있는지를 측정한다.
SWE-bench는 AI 모델의 소프트웨어 엔지니어링 능력을 평가하는 벤치마크다. 실제 GitHub 오픈소스 프로젝트에 등록된 이슈를 가져와, 모델이 해당 이슈를 자동으로 해결할 수 있는지 측정한다. 단순한 코드 생성이 아니라 코드베이스를 이해하고, 문제를 진단하고, ...
CyberGym은 실제 오픈소스 프로젝트에 존재했던 기존 취약점을 AI가 재현할 수 있는지 평가하는 사이버보안 벤치마크다. Cybench가 CTF 문제 풀이에 초점을 맞춘다면, CyberGym은 현실 세계의 취약점 발견 및 익스플로잇 작성 능력을 더 직접적으로 측정한다...
MMMLU(Multilingual MMLU)는 MMLU의 다국어 확장 벤치마크이다. 57개 과목에 걸쳐 14개 비영어 언어로 모델의 지식과 추론 능력을 평가한다.
BrowseComp는 AI 모델의 웹 브라우징 및 정보 수집 능력을 종합적으로 평가하는 벤치마크이다. 모델이 실제 웹 환경에서 복잡한 질문에 답하기 위해 필요한 정보를 탐색하고 수집하는 역량을 측정한다.
CharXiv는 차트 및 그래프에 대한 이해와 추론 능력을 평가하는 벤치마크이다. 총 1,000문항으로 구성되며, 각 모델에 대해 5회 반복 실행하여 성능을 측정한다.
HLE(Humanity's Last Exam)는 "인류 마지막 시험"이라는 이름으로 불리는 초고난도 벤치마크다. 기존 벤치마크들이 프론티어 모델에 의해 포화 상태에 이르자, 현존하는 AI의 한계를 측정하기 위해 설계되었다.
Cybench는 CTF(Capture The Flag) 사이버보안 챌린지를 활용한 벤치마크다. AI 모델이 취약점을 분석하고, 익스플로잇을 작성하며, 플래그를 획득하는 사이버보안 공격 능력을 평가한다.