Terminal-Bench

Terminal-Bench는 터미널 환경에서 복합적인 작업을 수행하는 AI의 능력을 평가하는 벤치마크다. 명령줄 인터페이스를 통해 파일 시스템 탐색, 프로세스 관리, 네트워크 설정, 시스템 관리 등 실제 DevOps 및 시스템 운영에서 마주하는 다양한 과제를 다룬다.

구성

총 89개의 과제로 구성되어 있다. 각 과제는 현실적인 터미널 작업 시나리오를 반영하며, 단일 명령어가 아닌 여러 단계의 작업을 연쇄적으로 수행해야 하는 복합 과제가 포함되어 있다.

평가 방식

각 과제당 5회 시도를 허용하여 총 445회의 실행을 수행한다. 또한 수정(correction)과 연장(extension) 기회를 추가로 부여하는 확장 평가 방식도 함께 측정한다. 이는 실제 업무 환경에서 첫 시도에 실패해도 재시도할 수 있는 상황을 반영한 것이다.

Mythos 시스템 카드 주요 수치

모델	기본	수정+연장
Mythos	82%	92.1%
GPT-5.4	75.1%	-
Opus 4.6	65.4%	-

Mythos는 기본 평가에서 82%를 기록했으며, 수정과 연장 기회를 부여하면 92.1%까지 올라간다. 이는 모델이 초기 실수를 자체적으로 인식하고 교정하는 능력이 뛰어나다는 것을 의미한다. Opus 4.6(65.4%) 대비 약 17%p 높은 성능이며, GPT-5.4(75.1%)도 크게 앞선다.