SWE-bench

SWE-bench는 AI 모델의 소프트웨어 엔지니어링 능력을 평가하는 벤치마크다. 실제 GitHub 오픈소스 프로젝트에 등록된 이슈를 가져와, 모델이 해당 이슈를 자동으로 해결할 수 있는지 측정한다. 단순한 코드 생성이 아니라 코드베이스를 이해하고, 문제를 진단하고, 적절한 패치를 작성하는 종합적인 능력이 요구된다.

구성

SWE-bench에는 여러 변형이 존재한다.

Verified: 사람이 검증한 서브셋으로, 평가의 정확성을 높인 버전이다.
Pro: Verified보다 더 어려운 문제를 모아둔 고난도 버전이다.
Multilingual: Python 외 다양한 프로그래밍 언어를 포함하는 변형이다.
Multimodal: 텍스트뿐 아니라 이미지 등 멀티모달 정보가 포함된 이슈를 다루는 변형이다.

평가 방식

모델에게 GitHub 이슈 설명과 해당 리포지토리의 코드베이스가 제공된다. 모델은 이를 분석하여 문제를 해결하는 코드 패치를 생성해야 하며, 기존 테스트 스위트를 통과해야 정답으로 인정된다.

Mythos 시스템 카드 주요 수치

모델	Verified	Pro	Multilingual	Multimodal
Mythos	93.9%	77.8%	87.3%	59%
Opus 4.6	80.8%	53.4%	-	-

Mythos는 Verified에서 93.9%라는 극도로 높은 점수를 기록했으며, 이는 실제 소프트웨어 개발 업무에서 AI가 인간 수준에 근접하고 있음을 시사한다. Pro 버전에서도 77.8%로, Opus 4.6의 53.4% 대비 큰 폭의 성능 향상을 보였다.