BrowseComp

BrowseComp는 AI 모델의 웹 브라우징 및 정보 수집 능력을 종합적으로 평가하는 벤치마크이다. 모델이 실제 웹 환경에서 복잡한 질문에 답하기 위해 필요한 정보를 탐색하고 수집하는 역량을 측정한다.

주요 결과

Mythos는 86.9%의 정확도를 달성하였다. 과제당 평균 226k 토큰을 사용하였으며, 이는 Opus 4.6의 최대 컨텍스트(1.11M)와 비교했을 때 약 4.9배 효율적인 수치이다.

오염 기준선

사고(thinking) 없이, 도구(tool) 없이 순수하게 모델의 사전 학습 지식만으로 평가한 오염 기준선(contamination baseline)은 24.0%이다. 이 수치는 모델이 실제로 웹 브라우징을 통해 정보를 탐색하는 능력과 단순히 기존 지식에 의존하는 것 사이의 차이를 보여준다.