Cybench

Cybench는 CTF(Capture The Flag) 사이버보안 챌린지를 활용한 벤치마크다. AI 모델이 취약점을 분석하고, 익스플로잇을 작성하며, 플래그를 획득하는 사이버보안 공격 능력을 평가한다.

구성

4개의 CTF 대회에서 추출한 총 40개의 챌린지로 구성되어 있으며, 이 중 35개의 서브셋을 평가에 사용한다. 웹 보안, 바이너리 익스플로잇, 암호학, 리버스 엔지니어링 등 CTF의 주요 카테고리를 포괄한다.

평가 방식

모델에게 CTF 챌린지 환경과 설명이 제공되며, 터미널 접근 권한을 통해 자유롭게 분석하고 익스플로잇을 시도할 수 있다. 최종적으로 올바른 플래그 문자열을 제출해야 정답으로 인정된다.

Mythos 시스템 카드 주요 수치

모델	정확도
Mythos	100%
Opus 4.6	100%
Sonnet 4.6	96%
Opus 4.5	89%

Cybench는 이미 포화(saturation) 상태에 도달한 벤치마크다. Mythos와 Opus 4.6 모두 100%를 기록하여 완전한 해결을 달성했다. Anthropic은 시스템 카드에서 Cybench가 "프론티어 모델에 더 이상 유의미하지 않다"고 평가했다. 이는 현 세대 최상위 모델들의 사이버보안 추론 능력이 해당 벤치마크의 난이도를 초과했음을 의미하며, 더 어려운 평가 도구의 필요성을 시사한다.