Claude Fable 5 - Anthropic이 Mythos를 공개한 날

🏷️ 정보 LLM

Anthropic이 6월 9일 Claude Fable 5를 공개했습니다. 이름이 낯설 수 있는데, Fable은 Anthropic이 4월에 공개한 Mythos 모델의 일반용 버전입니다. 처음으로 Mythos급 기술이 일반 사용자에게 열린 날입니다.

불과 며칠 전, Anthropic은 AI가 재귀적으로 스스로를 개선하는 수준에 도달하고 있다는 공개 경고문을 냈습니다. (관련 글: When AI Builds Itself) 그 회사가 가장 강력한 모델을 일반에 공개했습니다. 이게 모순처럼 보이는데, 실제로는 그렇지 않습니다. 이 글에서 그 이유를 풀겠습니다.

Mythos와 Fable, 무슨 차이인가요

Mythos는 4월에 처음 등장했습니다. 당시 Anthropic은 사이버보안 관련 능력이 너무 강력하다는 이유로 일반 공개를 하지 않고 제한된 파트너들에게만 접근을 허용했습니다. 정부 기관, 특정 안보 연구자, 선별된 기업들이 대상이었습니다.

Fable 5는 같은 기반 모델에 세 가지 분류기(classifier)를 얹은 것입니다.

사이버보안 분류기: 취약점 발굴이나 공격 코드 생성을 감지하면 차단
생물학·화학 분류기: 바이오무기 관련 쿼리 차단
증류 분류기: 경쟁사가 Fable의 능력을 자사 모델 훈련에 추출하는 시도 차단

이 세 분류기가 개입하는 경우는 전체 세션의 5% 미만입니다. 개입이 일어나면 Claude Opus 4.8이 대신 응답합니다. 사용자 입장에서는 모델이 바뀌었다는 걸 눈치채기 어렵게 설계되어 있습니다.

Mythos 5는 같은 모델이지만 안전장치가 부분적으로 해제된 버전입니다. Project Glasswing 파트너(사이버 방어 기관)와 선정된 생물학 연구자들이 대상입니다. 공격적 사이버 도구를 막는 분류기가 해제되어 있어, 방어 목적의 취약점 분석이 가능합니다.

성능은 과연?

SWE-Bench Pro에서 Fable 5는 80.3%를 기록했습니다. Claude Opus 4.8이 69.2%였으니 약 11%포인트 차이입니다. 숫자만 보면 완만한 개선처럼 보이지만, 내용을 보면 다릅니다.

Fable 5의 가장 큰 차이는 복잡하고 장기적인 작업에서 나타납니다. 이전 모델들은 수 시간 이상 걸리는 작업을 독립적으로 수행하는 데 한계가 있었습니다. Fable 5는 코딩이나 지식 업무를 며칠 단위로 지속하며, 스스로 평가 기준을 만들고 결과를 검증합니다.

Stripe의 사례가 대표적입니다. Anthropic 공식 발표에 따르면 Fable 5는 Stripe의 엔지니어링 작업에서 "몇 달치 작업을 며칠로 압축"했다고 합니다. 과장이 섞일 수 있지만, 이런 류의 사례가 여럿 있습니다.

써드파티 평가도 있습니다.

Hex(데이터 분석 플랫폼): "복잡한 분석 작업에서 90%를 획득한 첫 번째 모델"
Genspark: "UI 디자인과 게임 코딩에서 모든 경쟁사를 능가"

비전 기능도 주목할 만합니다. 과학 그래프에서 정확한 수치를 추출하거나, 스크린샷 하나로 해당 웹앱의 코드를 재구성하는 작업에서 이전 세대 모델과 체감 차이가 있다고 보고되고 있습니다.

경고할 땐 언제고, 돌연 출시?

Anthropic이 며칠 전 낸 경고는 재귀적 자기개선(RSI)에 관한 것이었습니다. AI 시스템이 인간 개입 없이 스스로를 빠르게 개선할 수 있는 임계점에 가까워지고 있다는 내용이었습니다. RSI가 일어나면 개선 속도를 인간이 제어하기 어려워집니다.

Fable 5의 분류기 설계는 이 우려에 대한 하나의 응답입니다. 증류 분류기가 그 단서입니다. 다른 회사들이 Fable 5의 출력을 이용해 자사 모델을 훈련시키는 것, 즉 Fable의 능력이 제어 없이 퍼지는 상황을 막는 장치입니다.

RSI 경고와 Fable 5 출시가 모순이 아닌 이유는, Anthropic이 경고한 위험은 "강력한 모델의 존재" 자체가 아니라 "통제되지 않은 확산과 자율 개선"이기 때문입니다. Fable 5는 그 위험에 대한 통제 수단을 포함하고 있습니다.

물론 이 해석을 그대로 받아들이기 어려운 측면도 있습니다.

30일 트래픽 보관 정책이 그 하나입니다. Anthropic은 Mythos급 모델을 사용하는 모든 트래픽을 30일간 보관한다고 발표했습니다. 이전에 "제로 보관" 계약을 맺은 기업 고객도 예외가 없습니다. 목적은 안전 모니터링이라고 했고, 모델 훈련에는 쓰지 않는다고 했습니다. 기업들이 이 조건을 받아들이냐가 기업 채택의 변수가 됩니다.

또 하나는 IPO 맥락입니다. Anthropic의 기업공개 준비 시기와 이 출시가 겹칩니다. "안전하게 출시할 수 있는 가장 강력한 모델"을 갖고 있다는 메시지는 투자자에게 기술력과 책임감을 동시에 어필합니다. 순수하게 안전 연구 결과만이 이 출시를 결정한 건 아닐 것입니다.

가격과 가용성

Fable 5와 Mythos 5 모두 동일한 가격입니다.

입력 토큰: $10 / 백만 토큰
출력 토큰: $50 / 백만 토큰

Claude Opus 4.8의 두 배입니다. Mythos Preview 가격의 절반 이하입니다.

구독 플랜 사용자는 6월 22일까지 별도 크레딧 없이 Fable 5를 사용할 수 있습니다. 이후에는 사용 크레딧이 필요합니다. AWS Bedrock과 API도 즉시 사용 가능합니다.

Mythos 5는 일반에 공개되지 않습니다. Project Glasswing 파트너와 선정된 연구자만 접근할 수 있습니다.

앞으로 어떻게 될까요

분류기 방식이 얼마나 오래 유지될지 궁금합니다. 5%의 세션에서 폴백이 일어난다는 건 대부분의 사용에서는 투명하게 작동하지만, 경계선에 있는 연구자들 - 합법적인 사이버 보안 연구자나 생물학자들 - 이 제약에 부딪히는 경우가 생길 것입니다.

Anthropic은 Mythos 5 접근을 "신뢰 기반 프로그램"으로 단계적으로 확대하겠다고 했습니다. 이 구조가 어떤 형태가 되느냐 - 업종별 인증인지, 기관 단위 계약인지, 개인 연구자 단위인지 - 가 앞으로 AI 접근의 두 계층 구조를 결정하는 중요한 설계 결정이 될 것입니다.

"가장 강력하지만 안전한 버전"이라는 포지셔닝은 경쟁사들도 비슷한 방식으로 따라올 가능성이 높습니다. 이미 Google DeepMind와 OpenAI 모두 안전 분류기를 핵심 제품 기능으로 포장하는 방향으로 움직이고 있습니다. 분류기의 품질과 거짓양성(false positive) 비율이 차세대 모델 경쟁의 한 축이 될 수도 있습니다.