Continual Learning Bench 1.0

실패 기록: 틀린 부분을 문서화하는 능력
조사: 실패 원인을 파악하는 능력
검증: 진단을 확인된 사실로 변환
추상화: 검증을 일반적 규칙으로 추출
재사용: 규칙을 실제로 참고하고 재적용

Prithvi Rajasekaran과 팀이 공개한 벤치마크로, AI 시스템의 "상태 유지" 능력을 측정합니다. 기존 벤치마크들은 각 예시가 독립적이라고 가정했지만, 이 벤치마크는 에이전트가 이전 세션의 경험을 메모리에 기록하고 재활용하는 상황을 시뮬레이션한다.

평가 항목