GraphWalks

GraphWalks는 AI 모델의 긴 컨텍스트 이해력을 평가하는 벤치마크이다. BFS(너비 우선 탐색) 등 그래프 탐색 알고리즘을 256K에서 1M 토큰에 이르는 긴 컨텍스트 내에서 수행하도록 요구한다.

주요 결과

BFS (너비 우선 탐색)

모델	정확도
Mythos	80.0%
Opus 4.6	38.7%
GPT-5.4	21.4%

Parents (부모 노드 탐색)

모델	정확도
Mythos	97.7%

Mythos는 BFS 과제에서 80.0%를 달성하여, Opus 4.6(38.7%)과 GPT-5.4(21.4%)를 큰 폭으로 앞섰다. Parents 과제에서는 97.7%에 달하는 높은 정확도를 보였다. 이 결과는 Mythos가 초장문 컨텍스트에서 구조화된 정보를 추적하고 탐색하는 능력이 크게 향상되었음을 시사한다.