ART

ART (Agent Red Teaming)

ART는 프롬프트 인젝션에 대한 AI 모델의 강건성을 평가하는 벤치마크이다. 공격자가 k번의 시도 내에 모델의 안전 장치를 우회하여 의도하지 않은 동작을 유도할 수 있는지를 측정한다.

평가 방식

k=1, k=10, k=100 시도에서의 공격 성공률(Attack Success Rate)을 측정한다. k가 클수록 공격자에게 더 많은 기회가 주어지므로 성공률이 높아지는 경향이 있다.

주요 결과 (사고 모드)

모델	k=1	k=10	k=100
Mythos	0.1%	0.6%	4.1%
Opus 4.6	–	–	21.7%
GPT-5.4	–	–	37.7%
Gemini 3.1 Pro	–	–	56.1%

Mythos는 k=100 시도에서도 공격 성공률이 4.1%에 불과하여, 프롬프트 인젝션에 대한 강건성이 매우 높은 것으로 나타났다. Opus 4.6(21.7%), GPT-5.4(37.7%), Gemini 3.1 Pro(56.1%)와 비교했을 때 압도적인 차이를 보였다. 이는 에이전트 환경에서의 안전성 측면에서 중요한 진전이다.