Apple WWDC 2026 - Siri와 Gemini

🏷️ 정보 LLM 에이전트

2026년 6월 8일 WWDC 키노트에서 Apple이 Siri를 차세대 Apple Intelligence 위에서 다시 세웠습니다. Tim Cook의 마지막 CEO 키노트이기도 했습니다. 9월 1일부로 하드웨어 엔지니어링을 이끌어 온 John Ternus가 CEO를 맡고, Cook은 executive chairman으로 물러납니다.

이번 발표의 무게중심은 두 가지입니다. 자기 비서의 두뇌를 Google과 함께 만든 모델로 채웠다는 점, 그리고 같은 추론 레이어를 개발자에게 열어 앱이 모델을 골라 쓰게 했다는 점입니다. 무엇이 바뀌었고 왜 이런 선택을 했는지 짚어봅니다.

한 가지 먼저 정리해 둡니다. 이 글에는 Apple이 무대에서 직접 말한 것과 언론이 보도한 것이 섞여 있습니다. Apple 공식 발표는 "차세대 Apple Foundation Models를 Google과 협력해 만들었다"는 수준까지이고, 모델 크기나 계약 규모 같은 구체 수치는 Apple이 공개하지 않았습니다. 어떤 게 보도이고 어떤 게 공식인지 그때그때 표시하겠습니다.

왜 자체 모델 대신 Gemini를 빌렸나

Apple은 Siri의 새 두뇌를 Google의 Gemini 계열 모델과 함께 만들었다고 무대에서 밝혔습니다. 다만 어느 정도 규모인지는 직접 말하지 않았습니다. Bloomberg의 Mark Gurman 보도에 따르면 약 1.2조 파라미터 규모의 커스텀 Gemini 모델이고, 계약은 연 10억 달러 수준입니다. 이 수치는 9to5Mac·TechCrunch·MacRumors 등이 함께 전했지만 Apple 공식 확인은 아닙니다. 자체 파운데이션 모델로 Siri를 다시 세우겠다던 계획이 수년째 미끄러진 끝에 나온 선택이라는 점은 분명합니다.

여기서 읽어야 할 건 Apple이 "직접 만들기"를 포기하고 "빌려서 자기 인프라에 태우기"로 방향을 틀었다는 점입니다. 모델은 Google과 함께 만들되, 그 모델을 자기 프라이버시 스택 안에서 굴려 통제권을 쥐는 구조입니다. 모델 학습 경쟁에서 한 발 물러서는 대신, 그 모델을 사용자 데이터와 어떻게 연결하느냐는 부분에서 차별점을 만들겠다는 판단입니다.

핵심은 모델을 어디서 돌리느냐입니다. Apple은 요청에 필요한 연산량과 개인 데이터 민감도에 따라 처리 위치를 나눕니다. 이 분배를 맡는 게 Apple이 system orchestrator라고 부르는 라우터이고, Craig Federighi는 이걸 "전체 시스템 프라이버시 구조의 핵심"이라고 표현했습니다. 이 부분은 Apple이 공식 발표한 구조입니다.

처리 위치	대상
온디바이스 (Apple 자체 모델)	가벼운 작업
Private Cloud Compute (Apple 실리콘 서버)	중간 난이도 요청
PCC 확장 (Google Cloud의 NVIDIA GPU)	에이전틱 툴 사용·복잡한 추론

여기서 한 가지를 분명히 해야 합니다. 가장 무거운 작업, 즉 에이전틱 툴 사용과 복잡한 추론은 Apple이 Google·NVIDIA와 협력해 Private Cloud Compute를 Google Cloud의 NVIDIA GPU까지 확장한 환경에서 돕니다. Apple은 이걸 별도 클라우드로 부르지 않고 PCC의 확장으로 규정합니다. PCC의 다섯 가지 핵심 보장(무상태 연산, 강제 가능한 보장, 특권 런타임 접근 금지, 비표적성, 검증 가능한 투명성)을 그대로 유지하면서, NVIDIA Confidential Computing과 Google Titan 칩, 그리고 모든 하드웨어를 기록하는 암호학적 원장을 더했습니다.

언론에서 자주 보이는 "3-tier"라는 표현과 "Blackwell B200"이라는 구체적 칩 이름은 Apple 공식 발표가 아니라 보도(The Information 등)에서 나온 것입니다. Apple 본인은 "tier"라는 단어도, 특정 GPU 이름도 쓰지 않았습니다. 분배가 일어난다는 사실은 맞지만, 깔끔한 3단 구조나 칩 모델명은 기자들의 정리라는 점은 짚어둘 필요가 있습니다.

모델을 고르는 권한은 개발자에게

발표 전후로 "iOS 27이 Claude·ChatGPT·Gemini·Grok을 시스템 기본 비서로 고르게 한다"는 이야기가 많이 돌았습니다. 다만 이건 Apple 공식 발표가 아니라 pre-WWDC 루머와 일부 매체의 정리에서 나온 것입니다. Apple newsroom의 키노트 자료에는 서드파티 AI를 시스템 기본 비서로 지정하는 마켓플레이스가 없습니다. 소비자가 Settings에서 Siri의 두뇌를 갈아끼우는 기능은 이번에 발표되지 않았습니다.

대신 Apple이 실제로 연 건 개발자 쪽입니다. Foundation Models 프레임워크에 새 LanguageModel 프로토콜이 들어와, 개발자가 자기 앱 안에서 쓸 모델을 고를 수 있게 됐습니다. Apple 온디바이스 모델, Gemini, Claude, 그리고 이 프로토콜을 구현하는 어떤 제공자든 같은 API 뒤에 세워집니다. 모델을 고르는 주체가 OS 사용자가 아니라 앱 개발자라는 점이 핵심입니다.

이게 작지 않은 이유는 분배 권력의 위치 때문입니다. 그동안 ChatGPT 한 곳에 묶여 있던 시스템 통합이, 개발자가 제공자를 직접 선택하는 구조로 열렸습니다. Anthropic·Google은 별도 앱을 설치시키지 않고도 개발자의 앱을 통해 10억 대 규모의 Apple 기기 위 워크로드에 올라탈 길이 생깁니다. 다만 그건 사용자가 Siri를 갈아끼우는 것과는 다른 층위라는 점을 분명히 해둡니다.

명령형 Siri와 무엇이 다른가

새 Siri는 독립 앱 셸을 갖습니다. 텍스트로 입력하거나 음성으로 토글할 수 있고, 대화는 iCloud로 기기 간에 비공개 동기화됩니다.

기능 면에서 달라진 건 단발 명령 처리기에서 에이전틱 어시스턴트로 넘어갔다는 점입니다.

메시지·이메일·사진 등 개인 데이터를 가로질러 검색
여러 앱을 거치는 멀티스텝 명령 수행
화면에 떠 있는 내용에 대한 질문 응답 (On-Screen Awareness)
최신 정보가 필요하면 웹으로 나가서 가져오기

"타이머 맞춰줘" 같은 단일 동작이 아니라, "지난주 그 메일에서 말한 식당 토요일로 예약 잡고 캘린더에 넣어줘" 같은 작업을 앱을 가로질러 처리하는 방향입니다. 키노트 데모에서는 화면 속 사진에서 해변을 식별하고, 오래된 저장 안 한 메시지에서 주소를 끌어와, 경유지 있는 경로를 짜는 흐름을 앱을 열지 않고 처리했습니다. 이 능력이 실제로 얼마나 매끄럽게 도는지는 베타 이후에 검증될 부분입니다.

이게 가능한 건 App Intents의 App Schemas 덕분입니다. 앱이 자기 콘텐츠를 entity schema로, 자기 동작을 intent schema로 모델링해 두면, Siri가 정해진 트리거 문구 없이도 그 동작을 자연어로 호출합니다. 화면 위 항목은 View Entity Annotations API로 노출돼 "이거", "세 번째 거" 같은 지시를 Siri가 해석하고, 한 앱의 엔티티가 다른 앱의 인텐트로 흘러가 앱을 가로지르는 멀티스텝이 성립합니다. 새 Siri는 앱 UI를 더듬는 대신 타입이 정해진 인텐트를 직접 호출하는 오케스트레이터에 가깝습니다.

개발자에게는 에이전트 런타임을 줬다

소비자용 발표가 키노트였다면, 같은 날 Platforms State of the Union에서는 개발자가 실제로 손댈 프레임워크가 공개됐습니다. 이쪽이 더 구조적인 변화입니다. Apple은 자기 앱을 AI 에이전트로 만드는 표준 런타임을 깔겠다는 방향으로 움직였습니다.

중심은 Foundation Models 프레임워크입니다. 앞서 본 LanguageModel 프로토콜로 제공자에 구애받지 않는 통합 추론 레이어가 됐고, 덕분에 앱이 로컬 추론과 클라우드 추론을 한 줄 차이로 갈아끼웁니다. 여기에 에이전트에 필요한 배관이 1급 시민으로 들어왔습니다.

이미지 입력(멀티모달 프롬프트)을 온디바이스에서 처리
Dynamic Profiles로 한 세션 안에서 모델·툴·지침을 즉석에서 교체
시스템 Vision 기능(OCR, 바코드 인식)을 모델이 호출 가능한 툴로 노출
guided generation 기반 툴 호출로 존재하지 않는 툴 이름이나 인자를 만들어내지 못하게 보장

API 표면은 여전히 세 줄입니다. LanguageModelSession을 만들고, respond(to:)로 응답을 받고, 구조화 출력은 @Generable 매크로로 받습니다. 이 단순함을 유지한 채 안을 확장했다는 게 핵심입니다. 클라우드 Gemini는 Firebase Apple SDK를 통해 별도 백엔드 서버 없이 바로 붙고, 개발자는 Google AI Studio에서 받은 셀프서브 API 키로 인증합니다.

모델 라인업도 정리됐습니다. 온디바이스에 \(3\)B 밀집 모델인 AFM 3 Core, 그리고 자체 활성 파라미터를 \(1\)B에서 \(4\)B만 켜는 \(20\)B 희소(MoE) 모델 AFM 3 Core Advanced가 있고, 서버에는 AFM 3 Cloud, 이미지 생성용 AFM 3 Cloud (Image), 가장 무거운 에이전틱 작업용 AFM 3 Cloud Pro가 있습니다. AFM 3 Cloud Pro가 바로 앞서 본 Google Cloud NVIDIA GPU 위 PCC에서 도는 모델입니다.

온디바이스 모델을 직접 올리는 Core AI

Foundation Models가 Apple 모델과 제공자 모델을 다룬다면, Core AI는 개발자가 자기 모델을 온디바이스에 직접 올리게 해주는 새 프레임워크입니다. Apple은 이걸 "기기에서 모델을 돌리는 가장 좋은 방법"이라고 소개했습니다. 흔히 Core ML의 후속으로 묶여 보도되지만, Apple 공식 자료는 Core AI를 Core ML의 대체라고 부르지 않고 Core ML도 같은 해 업데이트를 받았습니다. 둘은 당분간 공존하는 쪽입니다.

Core AI가 의미 있는 건 풀스케일 오픈 모델을 통째로 기기에 올리는 toolchain을 함께 줬기 때문입니다. PyTorch 모델을 coreai-torch로 변환하고, coreai-optimization으로 압축한 뒤, 새 .aimodel 포맷으로 배포합니다. int4 같은 양자화로 모델을 수백 MB 규모까지 줄여, Qwen, Mistral, SAM3 같은 모델을 서버도 토큰 비용도 클라우드 지연도 없이 기기에서 돌립니다. 올린 모델이 언어 모델이면 CoreAILanguageModel로 감싸 Foundation Models의 같은 LanguageModelSession API로 구동하고, SAM3 같은 분할 모델은 전용 CoreAIImageSegmenter API로 씁니다. 즉 Apple 모델이든, 내가 올린 오픈 모델이든, 제공자 클라우드 모델이든 언어 모델은 진입점이 하나로 모입니다.

AI 기능을 시험하는 도구도 같이 줬다

흥미로운 건 Apple이 모델 API만이 아니라 그 모델을 검증하고 운영하는 스택을 통째로 냈다는 점입니다.

새 Evaluations 프레임워크는 확률적 출력을 단위 테스트로는 못 잡는다는 전제에서 출발합니다. 데이터셋과 평가자를 정의하고, 모델 출력을 채점하고, 통계를 집계해 테스트처럼 돌립니다. 통과/실패뿐 아니라 수치 채점, 그리고 두 번째 모델을 심판으로 쓰는 model-as-judge 평가까지 지원합니다. 프롬프트를 한 번에 하나씩 바꿔가며 점수를 올리는 "hill-climbing" 개발 루프를 권장한다는 점이 인상적입니다.

Swift 밖으로도 문을 열었습니다. fm 커맨드라인 도구로 터미널에서 온디바이스 모델을 바로 쓰고, Apache-2.0 라이선스의 apple-fm-sdk 파이썬 SDK(pip install apple-fm-sdk)로 Jupyter·Pandas 환경에서 평가 파이프라인을 짭니다. 한 걸음 더 나아가 MLX는 Mac을 로컬 에이전트와 모델 연구 머신으로 키웁니다. OpenAI 호환 MLX-LM 서버를 띄워 기존 에이전트 프레임워크를 그대로 붙이고, Thunderbolt 5로 케이블 연결한 여러 Mac에 텐서·파이프라인 병렬을 펼쳐 \(1\)조 파라미터급 모델(Kimi K2 등)까지 분산 추론합니다. 이 분산 백엔드 JACCL은 RDMA를 Thunderbolt 5 위에서 돌려 TCP 대비 지연을 크게 낮춥니다.

Xcode가 에이전트의 작업대가 되다

도구 쪽에서는 Xcode 27이 에이전트의 호스트로 바뀌었습니다. 새 Device Hub가 실물 기기와 시뮬레이터를 한 창에 모아 관리하고, 라이트/다크 모드·글자 크기·접근성 설정·멀티터치 제스처를 사이드바에서 즉시 바꿔가며 테스트합니다. Simulator를 없애는 게 아니라 한곳에 묶는 통합 창입니다.

더 눈에 띄는 건 코딩 에이전트입니다. 에이전트가 시뮬레이터에서 앱을 구동하고, 테스트를 쓰고 돌리고, Playgrounds를 쓰고, Previews로 시각 변화를 확인합니다. 앱 번역을 끝에서 끝까지 처리하고(String Catalog 생성, 복수형 변형 포함 다국어 번역), 작업 전 범위를 잡는 /plan 명령도 생겼습니다. 코딩 에이전트는 "내가 고른 모델로" 돌아갑니다. Apple이 이름을 댄 내장 통합은 Anthropic의 Claude Agent와 OpenAI의 Codex이고, 그 밖의 에이전트(Gemini CLI, Cursor, Claude Code)는 Model Context Protocol(MCP)로 붙습니다.

여기서 한 가지 바로잡을 게 있습니다. Apple은 Xcode 에이전트 연동을 MCP 한 가지로 표준화했습니다. mcpbridge라는 MCP 서버가 Xcode의 내부 XPC 계층으로 호출을 옮겨, 파일시스템·빌드·테스트·진단 등 약 20개 내장 툴을 노출합니다. 외부에서 자주 언급되는 "Agent Client Protocol(ACP)"은 Zed·JetBrains 쪽 규약이지 Apple 것이 아닙니다. Claude Code 같은 CLI 에이전트가 Xcode의 빌드·테스트·진단을 구동하는 것도 전부 이 MCP 레인을 탑니다.

소규모 개발자에게 클라우드 AI를 무료로

이 발표에서 가장 손에 잡히는 혜택은 Private Cloud Compute를 소규모 개발자에게 무료로 연 것입니다. App Store 소상공인 프로그램에 등록된, 최초 다운로드 총 200만 건 미만 앱은 PCC 위에서 도는 차세대 Apple Foundation Models를 클라우드 API 비용 없이 씁니다. Apple은 "아이디어를 탐색하는 출발선이 인프라 비용에 막혀선 안 된다"는 말로 이 결정을 설명했습니다.

Foundation Models 프레임워크에 서버 모델 지원이 들어왔기 때문에, 온디바이스 모델로 짜둔 같은 네이티브 Swift API가 더 큰 능력이 필요할 때 요청을 PCC로 넘깁니다. 온디바이스로 시작해서 필요한 순간 서버로 올리는 전환이 코드 한 줄 수준에서 일어나는 구조입니다.

안전 쪽도 짚어둘 만합니다. Apple은 모델이 사용자 프롬프트보다 개발자 지침을 우선하도록 학습돼 있다는 점을 프롬프트 인젝션 방어선으로 다시 강조했고, App Intents에는 민감한 동작에 기기 인증을 요구하는 인증 정책(IntentAuthenticationPolicy)이 있어 개발자가 위험한 인텐트에 붙일 수 있습니다. 새 Core AI에는 온디바이스 모델의 첫 실행 지연을 프로파일링하는 Instruments 템플릿도 들어왔습니다.

모델 공급 관계라는 더 큰 그림

Apple과 Google의 관계는 원래 검색 기본값 계약으로 묶여 있었습니다. 이번 발표는 그 관계가 어시스턴트의 두뇌까지 확장됐다는 신호입니다. 검색창 기본값을 넘어, 비서가 생각하는 엔진 자체를 공급하는 관계로 깊어진 것입니다.

이 그림은 같은 시기 다른 흐름과 겹쳐 읽을 때 더 선명해집니다. Pentagon은 Anthropic이 대량 감시·자율무기 관련 가드레일을 풀길 거부하자 Claude를 공급망 리스크로 지정하고, 분류 시스템에서 약 6개월 안에 대체하는 작업에 들어갔습니다. 같은 모델이 한쪽에서는 Apple 개발자 생태계의 선택지로 올라타고, 다른 쪽에서는 국방 시스템에서 밀려나는 중입니다. 프런티어 모델이 어디에 쓰이느냐가 곧 그 모델의 정치적 위치를 결정하는 시대라는 뜻입니다.

Apple의 선택은 이 구도 안에서 하나의 베팅입니다. 모델 한 곳에 운명을 걸지 않고, 모델을 갈아끼울 수 있는 레이어를 자기가 쥐겠다는 것입니다. 두뇌는 빌리되, 그 두뇌를 꽂는 소켓은 내가 소유한다는 전략입니다.