SWE-bench

🏷️ 벤치마크 AI평가

SWE-bench

SWE-bench는 AI 모델의 소프트웨어 엔지니어링 능력을 평가하는 벤치마크다. 실제 GitHub 오픈소스 프로젝트에 등록된 이슈를 가져와, 모델이 해당 이슈를 자동으로 해결할 수 있는지 측정한다. 단순한 코드 생성이 아니라 코드베이스를 이해하고, 문제를 진단하고, 적절한 패치를 작성하는 종합적인 능력이 요구된다.

구성

SWE-bench에는 여러 변형이 존재한다.

평가 방식

모델에게 GitHub 이슈 설명과 해당 리포지토리의 코드베이스가 제공된다. 모델은 이를 분석하여 문제를 해결하는 코드 패치를 생성해야 하며, 기존 테스트 스위트를 통과해야 정답으로 인정된다.

Mythos 시스템 카드 주요 수치

모델

Verified

Pro

Multilingual

Multimodal

Mythos

93.9%

77.8%

87.3%

59%

Opus 4.6

80.8%

53.4%

-

-

Mythos는 Verified에서 93.9%라는 극도로 높은 점수를 기록했으며, 이는 실제 소프트웨어 개발 업무에서 AI가 인간 수준에 근접하고 있음을 시사한다. Pro 버전에서도 77.8%로, Opus 4.6의 53.4% 대비 큰 폭의 성능 향상을 보였다.