When AI Builds Itself - Anthropic의 재귀적 자기개선 경고

🏷️ 잡담 에이전트 추론

2026년 6월 4일, Anthropic이 자사 Institute 이름으로 문서 하나를 냈습니다. 핵심 주장은 두 가지입니다. 첫째, 2026년 5월 기준 자사 프로덕션 코드에 머지된 코드의 80% 이상을 Claude가 작성했다. 둘째, 재귀적 자기개선이 인간 통제를 벗어나기 전에, 미국과 중국의 프런티어 랩이 외부에서 검증 가능한 규칙 아래 함께 멈출 수 있는 장치를 만들자.

흥미로운 건 이 제안을 내놓은 곳이 정작 그 80% 수치를 자랑한 회사라는 점입니다.

80%라는 숫자, 정확히 무슨 뜻인가

숫자를 그대로 받아들이기 전에 맥락을 짚는 게 좋습니다.

"프로덕션 코드에 머지된 코드의 80%"는 줄 수 기준인지, 커밋 수 기준인지, 파일 수 기준인지가 중요합니다. Claude Code가 생성하는 보일러플레이트나 반복 패턴이 많다면, 줄 수 기준으로 급격히 올라갈 수 있습니다. Anthropic은 이 정의를 공개 문서에서 명확히 하지 않았습니다.

그럼에도 추세 자체는 분명합니다. Claude Code가 출시된 2025년 2월, 이 비율은 한 자릿수였습니다. 15개월 사이 80%를 넘었습니다. 엔지니어 한 명이 하루에 머지하는 코드량도 2024년 대비 8배가 됐습니다. 가장 어려운 개방형 문제에서 Claude의 성공률은 2025년 9월 25%에서 2026년 5월 76%로, 6개월 만에 50%포인트 뛰었습니다.

이 수치들이 자기 보고라는 점은 할인해야 합니다. 하지만 Anthropic 입장에서 이 숫자를 과장할 인센티브와 축소할 인센티브가 동시에 존재한다는 것도 생각해야 합니다. 과장하면 기술력으로 읽히고, 동시에 이번 문서의 경고를 정당화합니다. 어느 쪽이든 숫자는 방향성을 말해줍니다.

재귀적 자기개선은 어떻게 가속되나

재귀적 자기개선(RSI)은 AI 시스템이 더 강력한 AI를 만드는 능력을 갖출 때 시작되는 루프입니다.

지금 일어나는 일을 구체적으로 따라가면 이렇습니다. Claude가 Anthropic 엔지니어들이 Claude를 학습시키는 코드를 씁니다. 그 코드로 학습된 Claude는 코드 작성을 더 잘합니다. 더 나은 Claude가 다음 학습 코드를 씁니다. 루프가 하나 돌 때마다 성능이 올라갑니다.

완전한 RSI는 인간 엔지니어가 설계 결정에 개입하지 않아도 AI가 스스로 다음 AI의 아키텍처, 학습 목표, 데이터 선택을 결정하는 단계입니다. 아직 그 단계는 아닙니다. 하지만 Anthropic의 주장은, 피드백 루프가 이미 돌고 있고, 그 속도가 가속 중이라는 것입니다. 임계점이 어디 있는지 아직 아무도 모른다는 것도요.

6개월 만에 성공률이 50%포인트 오른다는 건, 이 루프가 실제로 효과를 내고 있다는 증거입니다.

검증 가능한 조정된 일시정지는 가능한가

Anthropic의 제안은 "프런티어 랩들이 함께 멈출 수 있는 메커니즘을 지금 만들자"입니다. 핵심 조건이 하나 있습니다. 검증 가능해야 한다는 것입니다.

여기서 게임이론이 개입합니다. A국 랩이 멈추고 B국 랩이 멈추지 않으면, A국은 경쟁 우위를 잃습니다. 멈추기 위해서는 상대방도 멈췄다는 걸 믿을 수 있어야 합니다. 신뢰가 아니라 검증입니다. 핵무기 감축 협상에서 현장 사찰이 필수였던 것과 같은 논리입니다.

Anthropic은 미국과 중국 양쪽 랩이 동시에 참여하지 않으면 의미가 없다고 명시했습니다. 일방적 중단은 약속하지 않았습니다. "우리가 먼저 멈추면 중국이 앞서간다"는 논리를 Anthropic 스스로도 인정하고 있는 것입니다.

현실적인 장벽은 큽니다. 어떤 행동이 RSI의 임계점을 넘는지를 외부에서 어떻게 판단하나요. 학습 컴퓨트 규모로 볼 수도 있고, 성능 지표로 볼 수도 있지만, 두 가지 모두 조작 가능합니다. 핵 시설은 물리적으로 존재하지만, AI 학습 코드는 보이지 않습니다. 검증 체계 설계 자체가 별도의 기술적·정치적 과제입니다.

우리에게 주는 실무 함의

이 문서를 어떻게 읽느냐에 따라 다른 결론이 나옵니다.

낙관적으로 읽으면, 가장 앞서가는 랩 중 하나가 자신들이 만들고 있는 것의 위험성을 공개적으로 인정하고, 국제 조율의 필요성을 먼저 이야기했다는 것입니다. 이런 종류의 공개 발언이 없으면 규제 논의 자체가 시작되기 어렵습니다.

회의적으로 읽으면, Anthropic은 80% 수치로 기술력을 자랑하면서 동시에 그 기술이 위험하다고 경고하는 메시지를 냈습니다. IPO를 준비하는 회사 입장에서, "우리가 가장 앞서가고, 그래서 안전을 가장 잘 안다"는 내러티브는 규제를 유리하게 형성할 수 있습니다. 기술 리더십과 안전 담론을 동시에 장악하는 포지셔닝입니다.

저는 두 해석이 동시에 참일 수 있다고 생각합니다. Anthropic의 우려가 진심이라고 해도, 그 우려의 공표 방식이 전략적 효과를 낳는다는 사실이 사라지지는 않습니다.

개발자나 엔지니어 입장에서 실무적으로 읽어야 할 부분은 성공률 추이입니다. 어려운 개방형 문제에서 76%의 성공률은, 지금 당장 코드 리뷰 프로세스와 자동화 수준을 재검토해야 할 이유가 됩니다. Claude가 짠 코드를 사람이 검토하는 구조가 의미를 갖는 동안은 그 구조를 유지해야 하고, 그 의미가 약해지는 시점이 언제인지를 주시해야 합니다. Anthropic이 경고하는 것도 결국 그 시점입니다.