GLM-5.2 - Zhipu의 744B MoE 오픈웨이트 모델 공개

🏷️ 정보 LLM 오픈소스

Zhipu(智谱)의 Z.ai가 2026년 6월 13일 GLM-5.2를 API로 출시하고 6월 17일 전체 가중치를 MIT 라이선스로 공개했습니다. 744B 파라미터 MoE 모델이 완전한 상업적 사용 조건으로 풀렸습니다. DeepSeek과 Qwen이 정해놓은 가격 파괴 경쟁에 GLM이 다시 올라탄 순간입니다.

744B인데 왜 빠른가: MoE 구조 이야기

GLM-5.2는 Mixture-of-Experts 설계를 씁니다. 전체 파라미터는 744B이지만 토큰 하나를 처리할 때 활성화되는 파라미터는 약 40B에 불과합니다. 총 384개 전문가 네트워크 중 매 추론 시 소수만 선택됩니다.

이 방식의 핵심은 추론 비용과 모델 용량을 분리한다는 데 있습니다. 40B Dense 모델 수준의 연산 비용으로, 744B 크기에서 학습한 풍부한 파라미터 공간을 활용합니다. DeepSeek V3가 같은 원리를 보여줬고, GLM-5.2는 그 위에 1M 토큰 컨텍스트를 얹었습니다.

1M 컨텍스트를 실현한 핵심은 DeepSeek Sparse Attention 구조입니다. 전체 시퀀스에 풀 어텐션을 적용하면 컨텍스트 길이의 제곱에 비례해 메모리와 연산이 늘어납니다. Sparse Attention은 관련 없는 토큰 간 어텐션을 건너뛰어 이 문제를 완화합니다. GLM-5.1의 200K 대비 5배 확장이 가능했던 기반입니다.

사전 학습 토큰 규모는 28.5조 토큰. 현재 공개된 수치 중 상당히 큰 편입니다.

가격 전략: DeepSeek 이후의 새 기준점

2025년 DeepSeek이 충격적인 가격으로 시장을 흔든 뒤, 중국 모델들의 가격 경쟁은 계속됩니다. GLM-5.2의 제시 가격은 이렇습니다.

서비스

가격

API (FriendliAI)

\(1.40/M 입력 토큰,\)4.40/M 출력 토큰

Z.ai Coding Plan Lite

월 $10

Z.ai Coding Plan Pro

월 $30

Z.ai Coding Plan Max

월 $80

비교 대상으로 Claude Max는 월 $200입니다. 기능 범위가 다르니 직접 비교는 조심스럽지만, 순수 LLM 접근 비용 기준으로 약 10배 차이가 납니다.

MIT 라이선스는 "연구용만 허용"이나 "특정 지역 제한"이 없는 진짜 무제한 라이선스입니다. Hugging Face나 ModelScope에서 가중치를 받아 상업 서비스에 바로 올릴 수 있습니다. 이 조건이 Llama 시리즈나 Qwen 시리즈와 GLM-5.2를 같은 선상에 놓는 핵심입니다.

1M 컨텍스트가 실제로 의미하는 것

컨텍스트 창 숫자 경쟁이 이어지고 있습니다. 그런데 1M이 실제로 유용한 케이스는 생각보다 좁습니다.

가장 현실적인 활용은 코드 레포 전체를 한 세션에 넣는 것입니다. 중간 규모 프로젝트의 소스 코드 전체가 대략 100K~500K 토큰 범위에 들어옵니다. 1M이면 여러 서비스의 코드를 동시에 비교 분석하거나, 변경 이력을 함께 넣어 설명을 요청하는 작업이 가능해집니다.

주의할 점은 컨텍스트 길이가 길어진다고 검색 품질이 선형으로 나아지지는 않는다는 것입니다. "Lost in the Middle" 현상, 즉 입력의 중간부를 모델이 체계적으로 덜 활용하는 문제는 여전히 존재합니다. GLM-5.2가 이 문제를 얼마나 완화했는지는 독립 평가가 더 나와야 알 수 있습니다.

벤치마크: 공식 발표 없음, 서드파티 수치는

Zhipu는 GLM-5.2 출시 시 공식 벤치마크 수치를 발표하지 않았습니다. 이례적인 결정입니다. SWE-bench Verified, LiveCodeBench, HumanEval 어느 것도 공식 발표 없이 API 선공개로 출시했습니다.

서드파티 기관들이 측정한 수치는 이렇습니다.

벤치마크

수치

Terminal-Bench 2.1

81.0

SWE-bench Pro

62.1

SWE-bench Verified (GLM-5.1 기준)

77.8

GLM-5.1이 SWE-bench Verified에서 77.8%를 기록한 것이 현재 비교 가능한 공식 수치입니다. 5.2가 이를 얼마나 개선했는지는 공개 수치가 없습니다.

벤치마크 없는 출시가 단순 자신감인지, 수치 불리함을 피하려는 것인지는 불분명합니다. 실사용 코딩 성능은 VSCode나 JetBrains 플러그인에서 직접 써보는 것이 지금으로서는 가장 빠른 판단 경로입니다.

중국 오픈웨이트 삼파전 구도

2026년 현재 오픈웨이트 LLM 시장은 사실상 세 개 라인이 지배합니다. Qwen(Alibaba), DeepSeek, 그리고 GLM(Zhipu)입니다. Meta Llama 4 시리즈가 영미권을 대표하지만, 추론 성능 대비 비용 측면에서 중국 계열 모델에 밀리는 구도가 이어지고 있습니다.

각 모델의 포지션:

Qwen3.5 시리즈 (Alibaba): 활성화 파라미터 효율에 집중. 35B-A3B(35B 파라미터, 3B 활성) 계열이 소형 배포 시장을 겨냥합니다. Apache 2.0 라이선스.

DeepSeek V3: 가격 충격의 원조. 671B MoE, 37B 활성. 출시 당시 GPT-4급 성능을 1/20 비용으로 제공한다는 주장이 실제로 상당 부분 검증됐습니다. MIT 라이선스.

GLM-5.2: 1M 컨텍스트와 코딩 특화로 차별화. 744B/40B 구조는 DeepSeek V3(671B/37B)와 규모가 비슷합니다. 코딩 작업에서 강점을 주장하며, Z.ai의 코딩 특화 플랜으로 개발자 시장을 직접 겨냥합니다.

세 모델 모두 MIT 또는 Apache 2.0으로 상업 사용이 자유롭습니다. 경쟁 축이 이제 라이선스가 아니라 특화 벤치마크와 실사용 도구 생태계로 옮겨가고 있습니다.

정리

GLM-5.2는 지금 실제로 쓸 수 있습니다. 가중치가 풀렸고, MIT입니다. 벤치마크 공식 수치가 없다는 점, 서드파티 수치가 아직 충분히 쌓이지 않았다는 점이 아쉽습니다.

코딩 작업에서 Claude나 GPT-5를 쓰면서 비용이 부담스러웠다면 GLM-5.2 API를 한 달 써보는 것은 합리적 선택입니다. 1M 컨텍스트가 실제 코드베이스에서 어떻게 작동하는지, 그리고 DeepSeek V3 대비 코딩 품질이 어떤지는 아직 데이터가 부족합니다. 삼파전이 계속되면서 더 많은 독립 비교 평가가 나오길 기다리는 것도 방법입니다.