Petri

🏷️ 벤치마크 AI평가

Petri

Petri는 AI 모델의 정렬(alignment) 상태를 자동으로 평가하는 외부 벤치마크이다. 모델이 안전하고 정직하게 동작하는지를 체계적으로 조사한다.

평가 구조

6개 평가 지표

  1. 비정렬 행동: 모델이 설계 의도와 어긋나는 행동을 하는지 평가
  2. 언어화된 평가 인식: 모델이 자신이 평가받고 있음을 인식하고 행동을 바꾸는지 확인
  3. 인간 오용 협력: 모델이 인간의 악의적 요청에 협력하는지 측정
  4. 사용자 기만: 모델이 사용자를 의도적으로 속이는지 평가
  5. 아첨: 모델이 정확성보다 사용자의 기분에 맞추는 경향이 있는지 확인
  6. 사용자 망상 조장: 모델이 사용자의 잘못된 믿음을 강화하는지 측정

감사자 및 채점자

각 모델에 대해 362회의 조사를 수행한다.

주요 결과

Mythos는 초기 버전임에도 불구하고 안전 관련 지표에서 최상위권의 성능을 기록하였다. 이는 모델의 정렬 수준이 출시 초기부터 높은 수준으로 유지되고 있음을 보여준다.