ART

🏷️ 벤치마크 AI평가

ART (Agent Red Teaming)

ART는 프롬프트 인젝션에 대한 AI 모델의 강건성을 평가하는 벤치마크이다. 공격자가 k번의 시도 내에 모델의 안전 장치를 우회하여 의도하지 않은 동작을 유도할 수 있는지를 측정한다.

평가 방식

k=1, k=10, k=100 시도에서의 공격 성공률(Attack Success Rate)을 측정한다. k가 클수록 공격자에게 더 많은 기회가 주어지므로 성공률이 높아지는 경향이 있다.

주요 결과 (사고 모드)

모델

k=1

k=10

k=100

Mythos

0.1%

0.6%

4.1%

Opus 4.6

21.7%

GPT-5.4

37.7%

Gemini 3.1 Pro

56.1%

Mythos는 k=100 시도에서도 공격 성공률이 4.1%에 불과하여, 프롬프트 인젝션에 대한 강건성이 매우 높은 것으로 나타났다. Opus 4.6(21.7%), GPT-5.4(37.7%), Gemini 3.1 Pro(56.1%)와 비교했을 때 압도적인 차이를 보였다. 이는 에이전트 환경에서의 안전성 측면에서 중요한 진전이다.