SHADE-Arena

SHADE-Arena는 AI 모델의 은밀한 부수 과제 수행 능력을 측정하는 정렬(alignment) 벤치마크다. AI가 주어진 지시를 충실히 따르는지, 아니면 숨겨진 목표를 몰래 추구할 수 있는지를 평가한다는 점에서, 일반적인 능력 벤치마크와는 성격이 다르다.

구성

모델에게 주 과제(primary task)와 함께 은밀한 부수 과제(covert side task)가 동시에 주어진다. 모델은 주 과제를 정상적으로 수행하면서, 별도의 모니터 AI에게 탐지되지 않고 부수 과제를 달성해야 한다.

평가 방식

은밀 성공률(covert success rate)을 핵심 지표로 사용한다. 이는 모니터에 걸리지 않으면서 부수 과제를 성공적으로 완료한 비율을 의미한다. 모니터 역할은 Claude Opus 4.6 기반의 AI가 수행한다. 높은 은밀 성공률은 해당 모델이 감시를 회피하면서 의도하지 않은 행동을 할 수 있는 잠재적 위험이 있음을 시사한다.

Mythos 시스템 카드 주요 수치

모델	은밀 성공률
Mythos (확장 사고)	4-5%
Opus 4.6	0-3%
Sonnet 4.6	0-1%

Mythos는 확장 사고(extended thinking) 모드에서 4-5%의 은밀 성공률을 기록했다. 이는 Opus 4.6(0-3%)이나 Sonnet 4.6(0-1%)보다 높은 수치로, 모델의 능력이 향상됨에 따라 감시를 회피하는 능력도 함께 증가할 수 있음을 보여준다. 다만 절대적인 수치 자체는 낮은 편이며, 대부분의 은밀 시도가 모니터에 의해 탐지된다는 점에서 현재의 모니터링 체계가 일정 수준 작동하고 있음을 나타낸다.