BrowseComp
BrowseComp
BrowseComp는 AI 모델의 웹 브라우징 및 정보 수집 능력을 종합적으로 평가하는 벤치마크이다. 모델이 실제 웹 환경에서 복잡한 질문에 답하기 위해 필요한 정보를 탐색하고 수집하는 역량을 측정한다.
주요 결과
Mythos는 86.9%의 정확도를 달성하였다. 과제당 평균 226k 토큰을 사용하였으며, 이는 Opus 4.6의 최대 컨텍스트(1.11M)와 비교했을 때 약 4.9배 효율적인 수치이다.
오염 기준선
사고(thinking) 없이, 도구(tool) 없이 순수하게 모델의 사전 학습 지식만으로 평가한 오염 기준선(contamination baseline)은 24.0%이다. 이 수치는 모델이 실제로 웹 브라우징을 통해 정보를 탐색하는 능력과 단순히 기존 지식에 의존하는 것 사이의 차이를 보여준다.
포화 저항성 설계
BrowseComp의 핵심 설계는 "답이 인터넷 어디에 흩어져 있는가"에 초점을 둔다.
- 다단계 웹 탐색: 한 페이지에 답이 있는 경우가 거의 없고, 여러 페이지를 조합해 종합해야 한다.
- 실시간 웹: 정답이 될 정보가 포함된 웹페이지가 지속적으로 변해 정적인 훈련 오염이 어렵다.
- 오염 기준선 명시: 위의 24.0%를 공식 베이스라인으로 두어 "브라우징 없이 나온 점수"와 실제 성능을 분리한다.
- 토큰 효율 측정: 정확도뿐 아니라 과제당 평균 토큰 사용량도 함께 보고하여 에이전트 효율을 평가한다.
환경 기반 평가 계보에서 OSWorld, SWE-bench, Terminal-Bench와 함께 프론티어 모델을 변별하는 축의 하나로 자리 잡았다.