OSWorld

OSWorld는 데스크톱 GUI 환경에서 AI 모델의 과제 수행 능력을 평가하는 벤치마크이다. 모델이 실제 운영체제 화면을 보고 마우스 클릭, 키보드 입력 등의 동작을 수행하여 주어진 작업을 완료할 수 있는지를 측정한다.

평가 조건

Mythos가 가장 높은 성능을 기록하였으며, GPT-5.4와 Opus 4.6가 그 뒤를 이었다. GUI 기반 과제 수행은 시각 인식, 공간 추론, 절차적 계획 능력이 복합적으로 요구되는 영역이다.