OSWorld

🏷️ 벤치마크 AI평가

OSWorld

OSWorld는 데스크톱 GUI 환경에서 AI 모델의 과제 수행 능력을 평가하는 벤치마크이다. 모델이 실제 운영체제 화면을 보고 마우스 클릭, 키보드 입력 등의 동작을 수행하여 주어진 작업을 완료할 수 있는지를 측정한다.

평가 조건

주요 결과

모델

정확도

Mythos

79.6%

GPT-5.4

75.0%

Opus 4.6

72.7%

Mythos가 가장 높은 성능을 기록하였으며, GPT-5.4와 Opus 4.6가 그 뒤를 이었다. GUI 기반 과제 수행은 시각 인식, 공간 추론, 절차적 계획 능력이 복합적으로 요구되는 영역이다.

포화 저항성 설계

OSWorld가 포화에 강한 이유는 환경 기반 평가라는 구조에서 온다.

OSWorld-Verified

원본 OSWorld의 채점 스크립트·환경 오류를 사람이 재검증한 버전이다. 프론티어 모델 비교에서는 Verified가 표준으로 자리 잡고 있다.

같은 환경 기반 계열의 대표 벤치마크로는 Terminal-Bench(셸 환경), BrowseComp(웹 브라우징), SWE-bench(저장소 레벨 코드)가 있다.