Outcomes
CMA에서 제공하는 기능으로, 에이전트가 자기 자신의 결과를 판단하는 대신 별도의 검증 서브에이전트(verifier)가 독립적인 컨텍스트 창에서 평가한다.
필요성
모델이 자신의 결과물을 스스로 평가할 때는 편향(self-critique bias)이 발생하기 쉽다. Outcomes는 이를 해결하기 위해:
- 사용자가 정의한 루브릭(체크리스트)을 제공
- 이를 독립적 컨텍스트의 grader가 검증
- 모든 기준이 충족되어야만 에이전트 작업 종료
성능 효과
Parameter Golf 벤치마크에서 Outcomes를 통한 검증이 활성화되면 Fable 5의 루프 효율이 크게 향상된다.