Continual Learning Bench 1.0
Prithvi Rajasekaran과 팀이 공개한 벤치마크로, AI 시스템의 "상태 유지" 능력을 측정한다. 기존 벤치마크들은 각 예시가 독립적이라고 가정했지만, 이 벤치마크는 에이전트가 이전 세션의 경험을 메모리에 기록하고 재활용하는 상황을 시뮬레이션한다.
평가 항목
- 실패 기록: 틀린 부분을 문서화하는 능력
- 조사: 실패 원인을 파악하는 능력
- 검증: 진단을 확인된 사실로 변환
- 추상화: 검증을 일반적 규칙으로 추출
- 재사용: 규칙을 실제로 참고하고 재적용
성능 차이
- Sonnet 4.6: 단계 1~2 수준 (메모리 미활용)
- Opus 4.7: 단계 3 수준 (검증 커버리지 ~17%)
- Fable 5: 전체 단계 완주 (검증 커버리지 최고 73%)