CharXiv

CharXiv는 차트 및 그래프에 대한 이해와 추론 능력을 평가하는 벤치마크이다. 총 1,000문항으로 구성되며, 각 모델에 대해 5회 반복 실행하여 성능을 측정한다.

주요 결과

모델	도구 미사용	도구 사용
Mythos	86.1%	93.2%
Opus 4.6	61.5%	78.9%

Mythos는 도구 없이도 86.1%의 정확도를 달성하였으며, 코드 실행 등 도구를 활용할 경우 93.2%까지 성능이 향상되었다. Opus 4.6 대비 도구 미사용 시 약 25%p, 도구 사용 시 약 14%p의 성능 차이를 보였다. 이는 시각적 데이터에 대한 추론 능력에서 의미 있는 발전이 이루어졌음을 보여준다.