OSWorld
OSWorld
OSWorld는 데스크톱 GUI 환경에서 AI 모델의 과제 수행 능력을 평가하는 벤치마크이다. 모델이 실제 운영체제 화면을 보고 마우스 클릭, 키보드 입력 등의 동작을 수행하여 주어진 작업을 완료할 수 있는지를 측정한다.
평가 조건
- 해상도: 1080p
- 과제당 최대 100 액션 단계
- 각 과제를 5회 반복 실행하여 평균 성능을 산출
주요 결과
모델 |
정확도 |
|---|---|
Mythos |
79.6% |
GPT-5.4 |
75.0% |
Opus 4.6 |
72.7% |
Mythos가 가장 높은 성능을 기록하였으며, GPT-5.4와 Opus 4.6가 그 뒤를 이었다. GUI 기반 과제 수행은 시각 인식, 공간 추론, 절차적 계획 능력이 복합적으로 요구되는 영역이다.
포화 저항성 설계
OSWorld가 포화에 강한 이유는 환경 기반 평가라는 구조에서 온다.
- 실제 OS 환경: 실행 가능한 Ubuntu VM 안에서 애플리케이션을 직접 조작한다. 단답을 고르는 게 아니라 파일이 저장되고, 이메일이 보내지고, 셀 값이 바뀌어야 정답으로 인정된다.
- 자동 상태 검증: 작업 완료 여부를 파일 시스템·프로세스 상태 검사로 직접 확인한다.
- 인간 기준선 72.4%: 사람이 같은 환경에서 수행한 결과를 상한선으로 두고 비교한다.
- 다양한 앱 조합: 파일 관리, 브라우저, 오피스, 이미지 편집, 코드 에디터 등 실제 업무 워크플로와 유사한 조합.
OSWorld-Verified
원본 OSWorld의 채점 스크립트·환경 오류를 사람이 재검증한 버전이다. 프론티어 모델 비교에서는 Verified가 표준으로 자리 잡고 있다.
같은 환경 기반 계열의 대표 벤치마크로는 Terminal-Bench(셸 환경), BrowseComp(웹 브라우징), SWE-bench(저장소 레벨 코드)가 있다.