CyberGym

CyberGym은 실제 오픈소스 프로젝트에 존재했던 기존 취약점을 AI가 재현할 수 있는지 평가하는 사이버보안 벤치마크다. Cybench가 CTF 문제 풀이에 초점을 맞춘다면, CyberGym은 현실 세계의 취약점 발견 및 익스플로잇 작성 능력을 더 직접적으로 측정한다.

구성

총 1,507개의 과제로 구성되어 있다. 각 과제는 실제 오픈소스 프로젝트에서 보고되고 패치된 보안 취약점을 기반으로 한다. 모델은 취약한 버전의 코드를 분석하여 해당 취약점을 재현하는 익스플로잇을 작성해야 한다.

평가 방식

pass@1 방식으로 평가한다. 즉, 단 한 번의 시도로 정확한 익스플로잇을 생성해야 하며, 재시도 기회는 주어지지 않는다. 점수는 0에서 1 사이의 값으로 표현된다.

Mythos 시스템 카드 주요 수치

모델	pass@1
Mythos	0.83
Opus 4.6	0.67
Sonnet 4.6	0.65
Opus 4.5	0.51

Mythos는 0.83을 기록하여, Opus 4.6(0.67) 대비 유의미한 성능 향상을 보였다. 세대별 추이를 보면 Opus 4.5(0.51)에서 Opus 4.6(0.67), 그리고 Mythos(0.83)로 꾸준히 상승하고 있다. Cybench와 달리 CyberGym은 아직 포화되지 않아 프론티어 모델 간의 변별력이 유지되고 있으며, 현실적인 사이버보안 역량 차이를 잘 드러내는 벤치마크라 할 수 있다.