AI 3대장 인프라

🏷️ 정보 LLM

AI 모델 품질 전쟁의 이면에는 인프라 전쟁이 있습니다. GPT, Claude, Gemini 세 회사가 쓰는 컴퓨트 인프라가 점점 갈라지고 있습니다. 같은 NVIDIA GPU를 나눠 쓰던 시절은 끝났고, 이제 각자 고유의 칩·클라우드·데이터센터 전략을 굳히는 단계입니다.

어제(2026-04-16) Opus 4.7 공개를 계기로 Anthropic 인프라를 정리하다 보니, 세 회사를 한자리에 놓고 비교하고 싶어졌습니다. 공식 발표와 1차 보도를 교차 확인해서 숫자를 맞췄습니다.

주요 출처: Anthropic·OpenAI·Google 공식 블로그, Data Center Frontier, TechCrunch, Reuters·CNBC 보도 (아래 본문 링크 참조)


한눈에 비교

항목

Anthropic

OpenAI

Google

주 클라우드

AWS (주력) + Google Cloud

Microsoft Azure + Oracle/Stargate

자사 Google Cloud

핵심 학습 칩

AWS Trainium2, Google TPU

NVIDIA GB200, 향후 자체 칩

TPU v7 (Ironwood), Trillium

자체 설계 칩

❌ (파트너 칩 사용)

✅ 설계 중 (Broadcom 제조, 10GW)

✅ 자체 설계 (Broadcom 협업)

대표 클러스터

Project Rainier (인디애나)

Abilene (텍사스) + Stargate 6곳

전 세계 Google 데이터센터

공표된 용량

2026년 1GW+ 신규

7GW 계획, 최종 10GW

Ironwood만 수백만 칩/2026

공표된 투자

AWS \(80억 + Google 수백억 달러 | Stargate\)500B (2029년까지)

Ironwood·데이터센터 $1,850억

추론 서빙

Bedrock, Vertex AI, MS Foundry

Azure + ChatGPT 자체

Vertex AI, Gemini 앱

숫자 단위가 다릅니다. Anthropic이 "기가와트"를 말할 때, OpenAI는 "10기가와트"를 말합니다.


Anthropic — 3-클라우드 헤지 전략

가장 분산된 구조입니다.

전략이 명확합니다. 한 칩, 한 클라우드에 묶이지 않는다. Trainium은 비용 효율, TPU는 대규모 학습, GPU는 범용성 — 칩마다 강점이 다르니 워크로드를 골라서 돌립니다. 공급망 리스크도 분산됩니다.

Anthropic × Google TPU 확장 · Google·Broadcom 파트너십


OpenAI — Stargate라는 국가급 프로젝트

세 회사 중 단연 규모가 큽니다. 그리고 가장 복잡합니다.

Stargate 프로젝트가 중심축입니다. OpenAI, SoftBank, Oracle, MGX가 공동 출자한 합작법인으로, 2029년까지 미국 내 AI 인프라에 최대 $5,000억을 투자합니다. 총 10GW 목표.

현황: - 플래그십 사이트: 텍사스 애빌린(Abilene). Oracle이 15년 리스로 GB200 GPU 45만 개 이상을 배치. - Oracle 확장 계약: $3,000억+, 추가 4.5GW. "OpenAI-Oracle 단독 거래"로는 역대 최대. - 현재 계획 용량: 7GW, 6개 사이트에서 건설 중. - 2026년 하반기 첫 1GW가 NVIDIA Vera Rubin 플랫폼으로 온라인 예정. - Microsoft Azure도 계속 병행. 추론·API 서빙의 상당 부분이 Azure에서 돌아갑니다.

여기에 2025년 10월 공개된 OpenAI-Broadcom 자체 칩 계약이 얹힙니다. OpenAI가 직접 설계한 AI 가속기를 Broadcom이 제조해 10GW 규모로 배치합니다. 2026년 하반기부터 출하 시작, 2029년 완료. OpenAI가 NVIDIA 의존도를 낮추려는 첫 번째 큰 발걸음입니다.

달러 단위의 무게감이 다릅니다. Stargate 혼자서 Anthropic 전체 계약 규모보다 큽니다.

Stargate 프로젝트 발표 · Stargate Oracle 확장 · OpenAI × Broadcom 10GW


Google — 수직 통합의 끝판왕

Google은 유일하게 처음부터 끝까지 자기 집에서 해결합니다.

**TPU v7 (코드명 Ironwood)**가 2026년 초 GA. 숫자가 흉악합니다: - 9,216칩 / 포드 (pod), 액체 냉각 - 포드당 42.5 엑사플롭스 — 단일 포드가 세계 최강 슈퍼컴퓨터급 - 포드당 10MW 전력 - TPU v5p 대비 10배, Trillium(v6e) 대비 4배+ 성능 - 첫 native FP8 지원 Google TPU

TSMC에서 2026년 생산 시작, 수백만 개 양산 계획. 설계는 Google이, 물리 구현은 Broadcom이 돕습니다.

인프라도 자사 데이터센터입니다. 별도 합작법인이나 장기 리스가 없습니다. Google Cloud 전 리전에 TPU가 분산 배치되고, Ironwood·Trillium·Axion ARM CPU가 함께 돌아갑니다. 데이터센터와 칩에 $1,850억을 투자한다고 공표했습니다.

재미있는 반전은 고객들입니다: - Anthropic: 최대 100만 TPU 계약 - Meta: 2026년부터 TPU 리스, 수십억 달러 규모 (최종 논의 중)

Google은 경쟁사의 경쟁 모델을 자사 칩에서 돌립니다. "TPU는 GPU보다 싸고 빠르다"는 메시지를 적극 팔고 있습니다.

Ironwood 공식 소개 · TPU v7 기술 상세 (SemiAnalysis)


세 회사의 전략 차이

같은 "컴퓨트 확보"를 서로 다른 철학으로 풀고 있습니다.

전략 축

Anthropic

OpenAI

Google

칩 자체 설계

❌ (파트너)

🟡 (설계 시작)

✅ (7세대째)

클라우드 자사 소유

❌ (Stargate 공동출자)

공급사 헤지

✅ 매우 강함

🟡 중간

❌ (자사 중심)

투자 스케일

\(100억대 |\)5,000억대

$1,000억대

리스크 프로파일

분산·유연

집중·메가딜

수직 통합

Anthropic은 "작지만 빠르게, 어디에도 안 묶이게"를 택했습니다. Opus 4.7처럼 자주 내놓으면서 비용·공급 리스크를 분산합니다.

OpenAI는 "국가급 인프라"를 짓고 있습니다. Stargate는 이미 사기업 규모를 넘어섰고, 미국 내 반도체 공급망·에너지 정책과 얽힙니다. 스케일은 최강이지만 파트너 간 이해관계가 복잡합니다.

Google은 "수직 통합"의 모범답안을 계속 가다듬습니다. 7세대 TPU는 이제 성능·가격·전력에서 NVIDIA와 동급 혹은 우위를 주장할 만한 수준이 됐고, 경쟁사들이 고객으로 들어옵니다.


숨은 공통분모: Broadcom

세 회사 이름 옆에 Broadcom이 계속 등장합니다.

2025년 기준 Broadcom의 AI 커스텀 칩 매출이 전년 대비 100% 이상 성장했다는 발표가 있었습니다. NVIDIA가 "AI 칩 = GPU"를 독점하는 동안, Broadcom은 조용히 "AI 칩 = 맞춤 설계" 시장을 쓸어 담고 있습니다. 이 게임의 진짜 승자일 수 있다는 분석이 늘어나고 있는 이유입니다.


사용자 관점에서 뭐가 달라지나

인프라 차이는 결국 세 가지로 번역됩니다.

  1. 가격 — Google TPU 자체 조달이 제일 쌉니다. OpenAI는 NVIDIA+Oracle 프리미엄을 얹을 수밖에 없습니다. Anthropic은 중간.
  2. 가용성·지역 — Google이 글로벌 리전 수 최다. OpenAI는 Azure+Stargate 거점 중심. Anthropic은 3-클라우드라 선택지가 넓습니다.
  3. 장기 로드맵 예측 가능성 — Google이 가장 단순합니다(자사 컨트롤). OpenAI는 Stargate·Broadcom 일정 변수가 많습니다. Anthropic은 파트너 의존이 분산돼 변동이 적습니다.

결국 모델 품질만큼이나 어느 클라우드에서 어떤 칩으로 서빙되는가가 비용과 지연시간을 결정합니다. 모델 벤치마크 옆에 인프라 지도를 같이 봐야 하는 시대입니다.