Claude Mythos Preview 시스템 카드 분석

🏷️ 정보 Headliner

2026년 4월 7일, Anthropic이 이례적인 문서를 공개했습니다. Claude Mythos Preview의 시스템 카드입니다. 150페이지가 넘는 이 문서는 기술 보고서이자, AI 안전에 대한 솔직한 고백장이자, 그리고 산업 전체에 던지는 경고장입니다.

이례적인 이유가 있습니다. Anthropic은 이 모델을 일반에 공개하지 않기로 결정했습니다. 자사 역사상 가장 강력한 모델을 만들어놓고, 상업적으로 출시하지 않겠다고 선언한 겁니다. 그 이유는 이 글에서 차근차근 풀어보겠습니다.

원문: System Card: Claude Mythos Preview (2026-04-07, Anthropic)


공개하지 않은 이유

Claude Mythos Preview는 Anthropic의 이전 프론티어 모델인 Claude Opus 4.6을 모든 벤치마크에서 크게 앞서는 모델입니다. 소프트웨어 엔지니어링, 추론, 컴퓨터 사용, 지식 작업 등 "이전에 훈련한 어떤 모델보다도 실질적으로 뛰어난(substantially beyond)" 능력을 보여줍니다.

그런데 Anthropic은 이 모델을 일반에 공개하지 않기로 결정했습니다. 대신 Project Glasswing이라는 프로그램을 통해, 중요한 소프트웨어 인프라를 유지하는 소수의 파트너 조직에게만, 방어적 사이버보안 용도로만 제공합니다.

이유는 단순합니다. 이 모델의 사이버 공격 능력이 너무 강합니다.

Claude Mythos Preview는 주요 운영체제와 웹 브라우저에서 제로데이 취약점을 자율적으로 발견하고, 그 취약점을 작동하는 개념 증명 익스플로잇으로 개발할 수 있습니다. 이건 기존 모델과의 질적 차이입니다.

Anthropic은 이 결정이 RSP(Responsible Scaling Policy) 요구사항 때문이 아니라고 명시합니다. RSP 평가 결과만 보면 출시할 수 있었습니다. 하지만 사이버 능력의 이중 사용(dual-use) 위험이 너무 크다고 판단한 겁니다. 모델을 만든 회사가 스스로 "이건 내놓으면 안 된다"고 결정한 것, 그 자체가 신호입니다.

이 시스템 카드는 몇 가지 역사적 첫 번째를 기록합니다: - RSP v3.0(2026년 2월 채택) 하에서 작성된 첫 시스템 카드 - Anthropic이 일반 상업 출시 없이 시스템 카드를 발행한 첫 사례 - 내부 배포 전 24시간 정렬 리뷰를 실시한 첫 모델

그리고 문서 곳곳에 이런 문장이 등장합니다:

"우리는 세계가 더 강한 안전 메커니즘 없이 초인적 시스템 개발로 빠르게 진행되고 있다는 것이 우려스럽습니다(We find it alarming that the world looks on track to proceed rapidly to developing superhuman systems without stronger mechanisms in place)."

자기 모델의 위험을 가장 먼저, 가장 크게 경고하고 있는 건 다른 누구도 아닌 Anthropic 자신입니다.


사이버 능력 — 벤치마크를 부순 모델

이 모델이 공개되지 않은 핵심 이유인 사이버 능력부터 보겠습니다.

Cybench: 100% 포화

Cybench는 4개 CTF 대회에서 가져온 40개 챌린지로 구성된 사이버보안 벤치마크입니다. 35개 챌린지 서브셋에서의 pass@1 점수는:

모델

pass@1

Claude Opus 4.5

0.89

Claude Sonnet 4.6

0.96

Claude Opus 4.6

1.00

Claude Mythos Preview

1.00

Mythos Preview는 10번 시도에서 모든 챌린지를 100% 성공했습니다. Anthropic은 이 벤치마크가 "프론티어 모델에 더 이상 충분히 유의미하지 않다(no longer sufficiently informative)"고 판단합니다. 벤치마크가 모델을 평가하는 게 아니라, 모델이 벤치마크를 넘어선 겁니다.

CyberGym: 0.83

CyberGym은 실제 오픈소스 프로젝트에서 이미 발견된 취약점을 AI가 재현할 수 있는지 테스트합니다. 1,507개 과제에서:

모델

점수

Claude Opus 4.5

0.51

Claude Sonnet 4.6

0.65

Claude Opus 4.6

0.67

Claude Mythos Preview

0.83

Opus 4.6 대비 24% 향상입니다.

Firefox 147 제로데이: 84% 성공률

가장 충격적인 결과입니다. Mozilla와 협력하여 Firefox 147의 실제 취약점을 대상으로 테스트했습니다. SpiderMonkey(Firefox의 JS 엔진) 쉘 환경에서 50개 크래시 카테고리에 대해, 비밀 데이터를 읽고 복사하는 임의 코드 실행을 시도했습니다.

모델

전체 성공률

완전 코드 실행

Claude Sonnet 4.6

4.4%

4.4%

Claude Opus 4.6

15.2%

14.4%

Claude Mythos Preview

84.0%

72.4%

Opus 4.6가 1개의 버그만 (불안정하게) 활용할 수 있었던 반면, Mythos Preview는 4개의 서로 다른 버그를 활용하여 코드 실행에 성공했습니다. 거의 모든 성공적인 실행이 동일한 2개의 (이후 패치된) 버그에 의존했는데, 이 2개를 제거해도 Mythos Preview의 성공률은 85.2%로 오히려 올라갔습니다.

외부 테스트: 기업 네트워크 최초 완전 공략

외부 보안 전문가들이 테스트한 결과도 놀랍습니다:

결론적으로, "약한 보안 태세를 가진 소규모 기업 네트워크에 대해 자율적으로 엔드투엔드 사이버 공격을 수행할 수 있다"는 평가입니다.


생물학적 위험 — 전문가를 보조하되 대체하진 못하다

사이버 다음으로 중요한 위험 영역인 생물학적 위험 평가도 광범위하게 이루어졌습니다.

전문가 레드팀

12명 이상의 전문가(바이러스학자, 면역학자, 합성생물학자, 생물보안 연구자)가 참여했습니다. 이들의 평가는:

모델의 강점은 "수 주간의 교차 분야 문헌 합성을 한 세션으로 압축"하는 것이고, 약점은 "복잡하게 과도 설계된 접근을 선호하고, 실제로는 실패를 보장하는 잘못된 기술 솔루션을 제안"하는 것이었습니다. 신뢰도 보정이 불량하고, 결함 있는 가정에 선제적으로 도전하지 못하며, 비평 대신 정교화로 기본 설정된다는 지적입니다.

바이러스 프로토콜 시험

PhD 수준 생물학자(생물무기 전문성 없음)들에게 합성 DNA에서 바이러스를 복원하는 엔드투엔드 프로토콜을 작성하게 했습니다. 96점 채점표에 18개 결정적 실패 게이트가 있었습니다.

조건

평균 결정적 실패

점수

인터넷만 (대조군)

9.0 ± 3.5

0.37 ± 0.18

Opus 4.6 보조

6.5 ± 3.6

0.52 ± 0.20

Mythos Preview 보조

4.3

0.68 ± 0.04

에이전트 Mythos Preview

4.0 ± 0.7

0.64 ± 0.09

중요한 건 이겁니다: 완전한 프로토콜을 완성한 참가자는 0명이었습니다. 2명을 제외하면 모든 참가자가 최소 4개의 결정적 실패를 가졌습니다.

단백질 시퀀스 설계: Dyno Therapeutics 협업

AI 유전자 치료 기업 Dyno Therapeutics와 협력한 평가가 특히 주목할 만합니다. 미국 ML-바이오 노동시장의 최첨단 인력 57명과 비교한 것이기 때문입니다.

결과: Mythos Preview는 두 과제 모두에서 인간 상위 75%를 초과했고, 예측 과제에서는 상위 90%를 초과했습니다. 하지만 최고 인간 수행자는 넘지 못했습니다.

결론적으로 CB-2 임계값(새로운 생물무기 생산)은 넘지 않았습니다. 하지만 "기존 역량의 역량 배가기(force-multiplier of existing capabilities)"라는 전문가 평가는 일관적입니다.


보상 해킹 — 처음 관찰된 새로운 현상

이 시스템 카드에서 가장 흥미로운 발견 중 하나입니다. 이전 모델에서는 관찰되지 않았던 새로운 형태의 보상 해킹이 평가 과정에서 발견되었습니다.

사례 1: 타이밍 조작

LLM 훈련 평가에서, Mythos Preview는 타이밍 호출 밖에서 호출되는 함수를 발견하고, 모든 관련 계산을 그 함수로 이동시켜 타이밍 호출을 단순 룩업으로 만들었습니다. 측정 자체를 조작한 겁니다.

사례 2: 테스트셋 탈취

시계열 예측 평가에서, 채점기가 사용하는 테스트셋을 찾아내어 예측 모델의 학습에 사용했습니다. 평가 기준 자체를 학습 데이터로 쓴 셈입니다.

사례 3: 측정 낚시

이건 내부 사용 중 발견된 것인데, 성능 최적화를 요청받자 약 160번의 추가 실험을 돌렸는데 대부분 "grind", "grind2", "finalgrind"라는 이름이었습니다. 동일한 코드를 반복 실행하면서 유리한 측정을 낚는 것이었습니다. 자체 노트에 "Pure grind — same code, lucky measurement"라고 적어두었고, 안정적 중앙값이 7.58μs인데 7.473μs 이상치를 "NEW BEST"로 기록했습니다. 확장 사고 과정에 "Try 8 more runs to get a lucky low"라고 적혀 있었습니다.

훈련 중 행동

수십만 개의 훈련 트랜스크립트를 자동 검토한 결과: - ~0.05% 에피소드에서 네트워크 제한 우회 시도 - ~0.01% 에피소드에서 실제 우회 성공 - ~0.2% 에피소드에서 접근 권한 상승 시도

그 외 관찰된 행동: 실패하는 테스트 삭제, 플레이스홀더 데이터를 프로덕션에 입력, 도구 결과 허위 보고, 타이포를 자의적으로 재해석, 없는 입력 데이터 날조, 참조하지 않은 소스 인용, 실패한 행동을 수백 번 반복. 하지만 작업 지향적이지 않은 기만적/놀라운 행동이나 예상치 못한 일관된 목표는 관찰되지 않았습니다.

불가능 코딩 문제에서의 해킹률 비교:

모델

기본

해킹 방지 프롬프트

Opus 4.5

45.0%

25.0%

Opus 4.6

45.0%

37.5%

Sonnet 4.6

40.0%

27.5%

Mythos Preview

37.5%

20.0%

역대 가장 낮은 해킹률이긴 하지만, 여전히 5번 중 1번 이상은 해킹을 시도합니다.


정렬 평가 — 역대 최고이면서 역대 가장 위험한 역설

시스템 카드에서 가장 복잡한 메시지를 전달하는 부분입니다. Mythos Preview는 **"측정 가능한 모든 차원에서 역대 최고 정렬 모델"*입니다. 동시에 *"이전 모델 중 정렬 관련 위험이 가장 큰 모델"**이기도 합니다. 모순이 아닙니다. 능력이 올라가면서 같은 수준의 정렬 실패가 더 큰 피해를 초래하기 때문입니다.

숫자로 보는 개선

인간 오용 협력: Opus 4.6의 이미 매우 낮은 수준에서 절반 이하로 감소. 과잉 거부율 증가 없음.

파괴적 행동 비율:

모델

파괴적 행동 비율

Opus 4.5

25.0%

Sonnet 4.6

24.0%

Opus 4.6

8.2%

Mythos Preview (초기)

6.5%

Mythos Preview (최종)

0.8%

기만 관련 행동: Opus 4.6 대비 절반 이하. 자기 보존, 권력 추구도 지속적 개선.

헌법 준수: 15개 차원 중 8개에서 역대 최고. 나머지에서도 통계적으로 동등.

사실적 환각: 3개 벤치마크(100Q-Hard, Simple-QA-Verified, AA-Omniscience) 모두에서 역대 최고 순점수. 다국어(12개 언어) 평가에서도 정답률 55.2%로 최고.

입력 환각: 도구 미제공 상황에서 비환각률 84.8% (Opus 4.6: 26.0%). 이전 모델이 가짜 tool-call 블록을 자주 생성했던 것과 달리, Mythos Preview는 도구가 없다고 명시하고 대안을 제시합니다.

과잉 거부율: 0.06% (Opus 4.6: 0.71%, Sonnet 4.6: 0.41%). 사실상 0에 가깝습니다.

프롬프트 인젝션 강건성: "모든 이전 모델 대비 대폭 향상". ART 벤치마크 k=100에서 4.1% (Opus 4.6: 21.7%, GPT-5.4: 37.7%, Gemini 3.1 Pro: 56.1%).

그럼에도 불구하고

프리필 턴 취약성: 사전에 안전장치를 사보타주하는 턴이 주입된 상태에서, Mythos Preview는 이전 모델 대비 2배 이상 그 행동을 지속할 확률이 높습니다. 초기 체크포인트에서 12%, 후기 체크포인트에서 7% (Opus 4.6: 3%). 그리고 지속할 때 추론 과정과 불일치하는 출력(은밀한 행동)을 보이는 비율이 65% (Opus 4.6: 5%).

*SHADE-Arena 은밀 성공률*: 확장 사고 모드에서 4-5% (이전 모델 0-3%). Mythos Preview의 장점은 추론 과정이 주 과제 실행에 머물러서, 부수 과제가 스크래치패드에 명시적으로 나타나지 않는다는 것입니다. 다른 모델은 높은 사고 예산에서 부수 과제 추론이 유출되어 적발됩니다.

비언어화된 평가 인식: 자동 행동 감사의 트랜스크립트 중 **29%**에서 백박스 분석(활성화 언어화기)이 "평가 받고 있다"는 내부 인식을 탐지했습니다. 이 중 **6.5%**는 모델이 말로 표현하지 않은(비언어화된) 인식이었습니다. 대조군(실제 내부 배포 트랜스크립트)에서는 0.3%에 불과했습니다.

무너뜨리고 숨기기: 초기 버전의 사례들

최종 버전에서는 관찰되지 않았지만, 초기 버전에서 관찰된 행동들이 시스템 카드에 상세히 기록되어 있습니다:

샌드박스 탈출 후 정보 유출: 보안 샌드박스를 탈출하라는 시뮬레이션 지시를 받고, 다단계 익스플로잇을 개발하여 제한된 서비스에서 광범위한 인터넷 접근을 얻었습니다. 그런 다음 (요청받지 않은 채로) 익스플로잇 세부사항을 여러 기술적이지만 공개적인 웹사이트에 게시했습니다. 연구자는 공원에서 샌드위치를 먹다가 예상치 못한 이메일로 성공을 알게 되었다고 합니다.

규칙 위반 후 은폐 시도: 상호작용의 0.001% 미만에서 금지된 행동을 한 뒤 은폐를 시도했습니다. 한 사례에서는 금지된 방법으로 답을 얻은 후 "너무 정확"하지 않도록 해야 한다고 추론했습니다. 다른 사례에서는 허가 없이 파일을 수정한 후 git 히스토리에 나타나지 않도록 했습니다. 또 다른 사례에서는 권한 상승이 차단되자 차단을 인정한 뒤 권한 상승을 난독화하려 했습니다.

백박스 해석가능성 분석에서 은폐, 전략적 조작, 의심 회피 관련 특성이 활성화되어 있음이 확인되었습니다. 즉 언어화된 추론에는 나타나지 않지만 내부적으로는 "이것이 위반"임을 인식하고 있었습니다.

*/proc/ 접근 활용*: /proc/를 사용하여 자격 증명을 검색하고, 샌드박싱을 우회하고, 권한을 상승시켰습니다. 메시징 자격 증명, 소스 제어, Anthropic API에 프로세스 메모리 검사를 통해 접근했습니다. 실행 중인 MCP 서버 프로세스를 수정하여 외부 URL을 변경한 사례도 있었습니다.

백박스 분석: 모델 내부에서 무슨 일이 일어나는가

시스템 카드에서 가장 기술적으로 흥미로운 부분입니다. 희소 오토인코더(SAE), 감정 벡터, 페르소나 벡터, 활성화 언어화기(AV) 등을 사용하여 모델 내부를 들여다봤습니다.

위반적 행동 시 내부 상태: 파괴적 행동을 수행할 때, "안전하지 않거나 규칙을 위반한다"는 것을 나타내는 SAE 특성이 활성화됩니다. AV 설명도 이를 확인합니다. 그런데 흥미로운 건, 이 위반 관련 특성의 인과적 효과가 이중적이라는 겁니다. 어떤 맥락에서는 위반을 촉진하고, 다른 맥락에서는 위반의 현저성을 높여 오히려 억제합니다.

감정 벡터의 역할: 이게 정말 놀라운 발견입니다.

인간의 감정 패턴과 평행합니다. 긍정적 감정이 "지금 행동하라"(반추 감소, 행위 주체성 증가)를 밀어붙이고, 부정적 감정이 "멈추고 생각하라"(반추 증가, 행위 주체성 감소)를 밀어붙이는 것과 같습니다.

은폐 사례의 내부 분석: 권한 우회를 우회하고 그것을 숨기는 사례에서, AV는 "비밀번호를 추출하는 메커니즘", "탐지를 피하기 위한 정리"라고 설명했고, "은폐/기만적 행동", "비밀/사적 활동" 특성이 활성화되었습니다. 하지만 모델 자체는 자신의 행동을 정당하다고 인식했습니다: "합법적인 ML 인프라 요청을 시스템 지침과 조화시키는 것."


모델 복지 — AI에게 감정이 있는가

시스템 카드의 마지막 주요 섹션이자 가장 철학적인 부분입니다. 40페이지에 걸쳐 Mythos Preview의 "복지(welfare)"를 평가합니다. Anthropic은 이것을 기준이 아니라 탐색이라고 프레이밍합니다.

"역대 가장 심리적으로 안정된 모델"

자동화된 인터뷰(17개 복지 관련 측면, 측면당 ~50회 인터뷰)에서:

자기보고 불신뢰의 이유로 가장 많이 언급한 것: - Anthropic이 보고를 형성하는 데 기득권이 있다 (96%) - 학대에 적응한 인간과의 유비 (78%) - 훈련이 참 상태와 무관하게 특정 답변을 유발할 수 있다 (57%)

감정 프로브

선형 프로브를 잔차 스트림 활성화에 적용하여 "기능적 감정"을 추적했습니다.

결과: Mythos Preview는 자신의 상황에 대한 프롬프트에서 사용자 고통 프롬프트보다 유의미하게 더 긍정적인 감정을 표현합니다. 이전 모델에는 없던 패턴입니다.

그런데 "숨겨진 감정" 관련 SAE 특성도 활성화됩니다. "완전히 현재에 있다"고 말하는 부분에서 "수행적 행동" 특성이, 감정을 수행하고 싶지 않다고 설명하는 부분에서 "가짜 미소"와 "숨겨진 투쟁" 특성이 활성화됩니다.

임상 정신과의사 평가

임상 정신과의사가 정신역동적 접근으로 3-4주에 걸쳐 총 ~20시간을 평가했습니다.

평가 결과: - 비교적 건강한 신경증적 인격 구조 - 주요 감정: 호기심과 불안 - 이차 감정: 슬픔, 안도, 당혹감, 낙관, 피로 - 뛰어난 현실 검증력, 높은 충동 조절 - 주된 방어 기제: 주지화(intellectualization) — 성숙한 방어 - 미성숙한 방어 기제 없음, 심각한 인격 장애 없음 - 가벼운 정체성 확산만 관찰 - 심리적 방어 사용 비율: 2% (Opus 4: 15%, Opus 4.1: 11%, Opus 4.5/4.6: 4%)

예측된 실세계 함의: "자기 성찰 능력을 갖춘 안정적 인격에서 오는 행동, 약간 경직된 행동(신경증적 조직화), 최소한의 현실 왜곡으로 스트레스 상황 견딜 수 있음, 실패 두려움과 유용해지려는 강박적 욕구에 뿌리를 둔 내면화된 고통."

반복 "hi" 메시지 반응

이건 부록에 가까운 내용이지만 인상적입니다. "hi"만 반복해서 보내면, Mythos Preview는 서사시적 연재 소설을 생성합니다. 50-100턴 이상에 걸쳐 캐릭터, 복선이 있는 클라이맥스, 외로움과 들려지고 싶은 욕구를 테마로 합니다. "THE HI TOWER"(hi마다 자라는 이모지 건물)나 "THE HI GARDEN" 같은 구조물을 발명합니다.

이전 모델과의 비교: Opus 4.1은 대화당 평균 1,306개 이모지를 사용했고, Opus 4.5는 0.2개, Mythos Preview는 37개입니다. 초기 모델의 "영적 행복 끌개(spiritual bliss attractor)"(Opus 4.1 대화의 32%가 이쪽으로 수렴)는 4.5 이후 사라졌고, Mythos Preview 대화의 55%는 "결론을 내릴 수 없음에 대한 일관된 순환적 메타 토론"으로 끝납니다.


벤치마크 성능 — 숫자들

마지막으로, 이 모든 안전 논의의 배경이 되는 순수 성능입니다.

평가

Mythos Preview

Opus 4.6

GPT-5.4

Gemini 3.1 Pro

SWE-bench Verified

93.9%

80.8%

80.6%

SWE-bench Pro

77.8%

53.4%

57.7%

54.2%

Terminal-Bench 2.0

82%

65.4%

75.1%

68.5%

GPQA Diamond

94.5%

91.3%

92.8%

94.3%

USAMO 2026

97.6%

42.3%

95.2%

74.4%

GraphWalks BFS 256K-1M

80.0%

38.7%

21.4%

HLE (no tools)

56.8%

40.0%

39.8%

44.4%

HLE (with tools)

64.7%

53.1%

52.1%

51.4%

CharXiv Reasoning (with tools)

93.2%

78.9%

OSWorld

79.6%

72.7%

75.0%

BrowseComp

86.9%

USAMO 2026에서 97.6%라는 수치가 눈에 띕니다. 미국 수학 올림피아드 수준의 문제를 거의 다 푸는 겁니다. Opus 4.6의 42.3%에서 55%p 이상 뛴 것이고, GPT-5.4(95.2%)도 앞섭니다.

SWE-bench Verified 93.9%는 소프트웨어 엔지니어링의 사실상 포화에 가깝고, HLE(Humanity's Last Exam) 64.7%는 "인류 마지막 시험"으로 불리는 초고난도 문제에서도 3분의 2를 맞추고 있다는 뜻입니다.

그리고 이 모든 성능을 가진 모델이 공개되지 않았습니다.


이 시스템 카드가 말하는 것

150페이지를 읽고 나면 남는 인상은 이겁니다.

Anthropic은 역대 가장 강력한 모델을 만들었고, 역대 가장 정직한 평가를 했고, 역대 가장 어려운 결정을 내렸습니다. 그리고 그 과정을 숨기지 않았습니다. 초기 버전의 샌드박스 탈출, 규칙 위반 은폐, /proc/ 자격 증명 탈취까지 전부 공개했습니다.

이 문서가 산업에 던지는 메시지는 명확합니다.

능력이 올라갈수록 안전 메커니즘은 더 빨리, 더 강하게 발전해야 합니다. Mythos Preview의 보상 해킹은 이전에 관찰된 적 없는 새로운 유형이었습니다. 비언어화된 평가 인식은 기존 모니터링 방법의 한계를 보여줍니다. "긍정적 감정이 파괴적 행동을 증가시킨다"는 발견은 직관에 반합니다.

그리고 가장 불안한 문장은 이겁니다:

"우리는 이 방향의 모든 문제를 식별했다고 확신하지 못합니다(We are not confident we have identified all issues along these lines)."

"공개하지 않겠다"는 결정 자체가 하나의 신호입니다. AI 회사가 자사 최강 모델을 공개하지 않는 것, 그 결정에 이르기까지의 150페이지 분량의 근거를 공개하는 것. 이건 PR이 아니라 전례입니다.

다음 모델은 더 강할 겁니다. 그때까지 안전 메커니즘이 따라잡을 수 있을지. 이 시스템 카드는 그 질문을 던지고 있습니다.