GraphWalks
GraphWalks
GraphWalks는 AI 모델의 긴 컨텍스트 이해력을 평가하는 벤치마크이다. BFS(너비 우선 탐색) 등 그래프 탐색 알고리즘을 256K에서 1M 토큰에 이르는 긴 컨텍스트 내에서 수행하도록 요구한다.
주요 결과
BFS (너비 우선 탐색)
모델 |
정확도 |
|---|---|
Mythos |
80.0% |
Opus 4.6 |
38.7% |
GPT-5.4 |
21.4% |
Parents (부모 노드 탐색)
모델 |
정확도 |
|---|---|
Mythos |
97.7% |
Mythos는 BFS 과제에서 80.0%를 달성하여, Opus 4.6(38.7%)과 GPT-5.4(21.4%)를 큰 폭으로 앞섰다. Parents 과제에서는 97.7%에 달하는 높은 정확도를 보였다. 이 결과는 Mythos가 초장문 컨텍스트에서 구조화된 정보를 추적하고 탐색하는 능력이 크게 향상되었음을 시사한다.