Continual Learning Bench 1.0

🏷️ 벤치마크 AI평가

Prithvi Rajasekaran과 팀이 공개한 벤치마크로, AI 시스템의 "상태 유지" 능력을 측정한다. 기존 벤치마크들은 각 예시가 독립적이라고 가정했지만, 이 벤치마크는 에이전트가 이전 세션의 경험을 메모리에 기록하고 재활용하는 상황을 시뮬레이션한다.

평가 항목

성능 차이