Gemma 4

🏷️ 정보 LLM 구글
image.png Google DeepMind이 Gemma 4를 공개했습니다. Gemini 3의 연구와 기술을 기반으로 만든 오픈 모델 패밀리이며, 이번엔 Apache 2.0 라이선스입니다. E2B, E4B, 26B MoE, 31B Dense 네 가지 사이즈로 나왔고, 31B 모델은 Arena AI 텍스트 리더보드에서 오픈 모델 3위, 26B MoE는 6위를 기록했습니다. 자기보다 20배 큰 모델을 이기는 파라미터 대비 지능(intelligence-per-parameter) 효율을 강조하고 있습니다. Gemma 시리즈 출시 이후 누적 다운로드 4억 회, 커뮤니티 변형 모델 10만 개라는 숫자도 인상적입니다.

Gemma 4는 네 가지 사이즈로 나뉩니다.

아키텍처 특징

Gemma 4의 아키텍처는 이전 버전들과 다른 오픈 모델에서 검증된 컴포넌트를 조합했습니다. 복잡하거나 결론이 불분명한 기법(예: Altup)은 제외하고, 라이브러리 호환성과 디바이스 범용성을 우선시한 설계입니다.

주요 특징:

성능

Arena AI 텍스트 리더보드 기준:

Hugging Face 블로그에 따르면, 이 수치는 자기보다 20배 큰 모델을 능가하는 결과입니다. 텍스트뿐 아니라 비전, 오디오에서도 비교적 좋은 성능을 보인다고 합니다.

한편, Trending Topics의 분석에서는 중국 경쟁 모델들(Qwen, DeepSeek 등) 대비 여전히 뒤처진다는 지적도 있습니다. 이 부분은 아직 벤치마크 세부 비교가 필요해 보입니다.

아키텍처 + TurboQuant

Gemma 4가 "소비자 하드웨어에서 프론티어급 AI"를 가능하게 하는 건 단순히 모델 크기가 작아서가 아닙니다. 아키텍처 레벨에서 KV 캐시를 줄이는 최적화가 여러 겹으로 쌓여 있고, 여기에 TurboQuant까지 결합되면서 메모리 사용량이 극적으로 줄어듭니다.

1단계: 아키텍처 자체의 KV 캐시 최적화

Shared KV Cache — Gemma 4에서 가장 주목할 만한 효율화 기법입니다. 마지막 N개 레이어가 자체 Key/Value 프로젝션을 계산하지 않고, 앞선 레이어의 KV 텐서를 재사용합니다. E2B 모델의 경우 35개 레이어 중 20개가 KV를 공유합니다. 실제 KV 캐시를 생성하는 레이어는 15개뿐입니다. KV를 공유하는 레이어는 대신 MLP를 2배 넓게(hidden=12,288 vs 6,144) 해서 표현력을 보상합니다.

하이브리드 어텐션의 이중 구조 — Gemma 3에서 시작된 슬라이딩 윈도우/글로벌 어텐션 인터리빙이 Gemma 4에서 한 단계 진화했습니다. 두 어텐션 타입이 구조적으로 다릅니다:

글로벌 레이어에서는 V 프로젝션을 아예 제거하고(K=V weight sharing) Key 값을 Value로도 씁니다. 이게 어텐션 출력을 안정화시키면서 메모리를 절반으로 줄입니다.

Per-Layer Embeddings (PLE) — E2B/E4B 모델에서 사용. 총 파라미터는 5B/8B이지만, 레이어별 임베딩 테이블은 CPU에서 처리하고 실제 가속기(GPU) 메모리에는 코어 트랜스포머 가중치(~2B/~4B)만 올립니다. 결과적으로 E2B는 약 2GB, E4B는 약 3GB의 가속기 메모리로 동작합니다.

구체적 수치:

2단계: TurboQuant로 KV 캐시 추가 압축

여기에 TurboQuant를 적용하면 KV 캐시가 한 번 더 4~6배 줄어듭니다. 이미 아키텍처 레벨에서 최적화된 KV 캐시를 3.5비트로 양자화하는 거라, 효과가 곱해집니다.

MLX에서 바로 사용 가능합니다:

mlx_vlm.generate \
  --model "mlx-community/gemma-4-26B-A4B-it" \
  --prompt "Your prompt here" \
  --kv-bits 3.5 \
  --kv-quant-scheme turboquant

Hugging Face 블로그에 따르면, 이 조합으로 비압축 베이스라인과 동일한 정확도를 유지하면서 활성 메모리를 약 4배 줄이고, 전체적인 속도도 빨라집니다. Apple Silicon에서 긴 컨텍스트 추론이 실용적이 됩니다.

llama.cpp에서도 통합이 진행 중입니다. PR #21089에서 TurboQuant KV 캐시 타입(tbq3_0, tbq4_0)이 ggml 타입 시스템에 추가되는 작업이 진행 중입니다. CPU 구현은 이미 18/18 테스트를 통과했고, CUDA 커널도 작성 완료 상태입니다. Gemma를 포함한 5개 아키텍처에서 자동 head_dim 매핑이 동작합니다.

실질적 영향: 무엇이 달라지나

이 조합의 실질적 의미를 정리하면:

한 분석가가 이런 표현을 썼습니다. "48GB GPU가 필요하던 모델이 8GB VRAM에서 돌아갈 수 있다." 다소 과장이 섞여 있지만, 방향성은 맞습니다. 모델 가중치 양자화(GPTQ, AWQ)와 KV 캐시 양자화(TurboQuant)는 서로 보완적이라, 둘을 동시에 적용하면 메모리 절감이 곱해집니다.

에코시스템과 실행 환경

오픈 모델의 가치는 결국 "얼마나 쉽게 돌릴 수 있는가"에 달려 있습니다. 이 점에서 Gemma 4의 Day 0 지원은 압도적입니다.

Android에서는 AICore Developer Preview를 통해 바로 테스트할 수 있고, Gemini Nano 4의 기반이 될 모델이라 향후 안드로이드 생태계와의 통합도 기대됩니다.

고찰

긍정적인 부분:

아쉬운 부분:

Gemma 4는 "파라미터 대비 성능" 경쟁에서 구글의 본격적인 답변으로 보입니다. Apache 2.0 전환, 다양한 사이즈 라인업, 광범위한 에코시스템 지원까지. 오픈 모델 시장에서 Qwen, Llama, Mistral과의 경쟁이 더 치열해질 것 같습니다.

개인적으로 가장 주목하는 건 26B MoE입니다. 4B 활성 파라미터로 26B급 품질을 낸다면, 로컬 에이전트 시나리오에서 매우 실용적인 선택지가 될 수 있습니다. TurboQuant 같은 KV 캐시 최적화 기법과 결합하면, 256K 컨텍스트를 소비자 GPU에서 실제로 활용할 수 있는 시대가 올 수도 있겠네요.


참고 자료: