Kimi K2.7-Code - Moonshot AI의 최신 코딩 특화 모델

🏷️ 정보 LLM 오픈소스

2026년 6월 12일, Moonshot AI가 HuggingFace에 Kimi K2.7-Code를 공개했습니다. 출시 직후 876개의 좋아요와 22만 건 이상의 다운로드를 기록하며 트렌딩에 올랐고, 코딩 에이전트 커뮤니티에서 빠르게 주목받았습니다. 그런데 이 모델을 제대로 평가하려면 숫자 너머를 봐야 합니다.

Kimi K2 시리즈

Moonshot AI는 Kimi K2 시리즈를 일반 인스트럭션 모델(Kimi-K2-Instruct)과 코딩 특화 버전(K2.x-Code)으로 병행 개발하고 있습니다. K2.7-Code는 지난 K2.6을 베이스로 한 코딩 집중 업그레이드입니다.

K2.6과의 핵심 차이는 두 가지입니다. 첫째, K2.6의 MoonViT 비전 인코더가 제거됐습니다. 멀티모달 능력을 빼고 코딩에 올인한 선택입니다. 둘째, 생각(thinking) 토큰 효율이 개선됐습니다. 동일한 코딩 태스크를 처리할 때 K2.6보다 약 30% 적은 토큰으로 결론에 도달하도록 파인튜닝됐습니다. 추론 비용과 레이턴시가 직접 줄어드는 실질적인 변화입니다.

1조 파라미터

Kimi K2.7-Code의 스펙은 총 1조(1T) 파라미터, 포워드 패스당 활성화 파라미터 32B, 전문가(expert) 384개, 토큰당 top-8 라우팅입니다. 컨텍스트 창은 256K 토큰입니다.

서빙이 가능할까 의문이 들지만, MoE(Mixture-of-Experts) 구조의 핵심은 모든 파라미터가 동시에 켜지지 않는다는 점입니다. 각 토큰을 처리할 때 384개 전문가 중 8개만 활성화됩니다. 즉 실제 연산량은 32B 파라미터 모델과 비슷하지만, 각 전문가가 서로 다른 패턴을 담당해 표현력은 훨씬 넓습니다.

실용적으로 보면, vLLM·SGLang·KTransformers 기반의 K2.6 배포 패턴을 그대로 재사용할 수 있습니다. 아키텍처 변화가 없어 기존 인프라를 유지하면서 가중치만 교체할 수 있다는 의미입니다.

자체 벤치마크의 한계

Moonshot AI가 공개한 성능 수치는 다음과 같습니다.

벤치마크	K2.6 대비 향상
Kimi Code Bench v2	+21.8%
Program Bench	+11.0%
MLS Bench Lite	+31.5%

SWE-bench Pro에서 58.6점을 주장하는데, 이를 비교 대상으로 언급된 Claude Opus 4.6의 53.4점과 비교하면 꽤 인상적인 수치입니다.

그런데 여기서 중요한 점이 있습니다. 6월 12일 공개 기준으로, Moonshot AI가 제시한 모든 벤치마크는 자사 내부 벤치마크입니다. HumanEval, SWE-bench Verified, LiveCodeBench 같은 독립 서드파티 벤치마크에 대한 공식 결과는 아직 없습니다. VentureBeat는 "practitioners say the benchmarks don't check out"이라는 제목으로, 현업 사용자들이 내부 벤치마크 수치와 체감 성능 간 괴리를 보고한다고 지적했습니다.

자사 벤치마크를 비판할 근거가 있는 건 아닙니다. 다만 K2.7-Code를 실무에 도입하려 한다면, 직접 자기 태스크셋으로 검증하는 것이 현명합니다.

API와 오픈소스

API 경로: 모델 ID kimi-k2.7-code로 Moonshot API를 통해 바로 쓸 수 있습니다. 가격은 입력 \(0.95/백만 토큰, 출력\)4.00/백만 토큰입니다. Kimi Code CLI도 지원합니다.

오픈소스 경로: HuggingFace의 moonshotai/Kimi-K2.7-Code 리포지터리에서 가중치를 받을 수 있습니다. Modified MIT 라이선스로 상업적 활용이 가능합니다(저작자 표시 필요). vLLM이나 SGLang으로 셀프호스팅 할 수 있으며, K2.6과 아키텍처가 동일해 기존 배포 스크립트를 재사용할 수 있습니다.

1조 파라미터 모델을 온프레미스로 띄우려면 상당한 GPU 메모리가 필요합니다. Spheron 같은 GPU 클라우드 서비스를 활용하거나, KTransformers처럼 CPU 오프로딩을 지원하는 런타임을 쓰면 진입 장벽이 낮아집니다.

Kimi K2.7-Code는 K2.6 대비 실용적인 개선 두 가지를 가져왔습니다. 비전 인코더를 걷어내고 코딩에 집중한 파인튜닝, 그리고 30% 절감된 thinking 토큰입니다. 아키텍처는 동일해 배포 마찰이 없고, 오픈웨이트 + Modified MIT로 상업적 활용도 열려 있습니다.

다만 성능 주장은 아직 독립 검증 전입니다. 자사 벤치마크에서 큰 향상을 보였다는 발표는 출발점이지, 도착점이 아닙니다. GameCraft-Bench 같은 에이전트 벤치마크에서 Kimi-K2.6이 30.65점으로 Claude/GPT에 10점 이상 뒤처진 결과를 봤을 때, K2.7-Code가 그 격차를 얼마나 줄이는지가 실제 관심사입니다. 직접 돌려보고 판단하는 것이 최선입니다.