Kimi k2.5 - 200만 토큰의 멀티모달 에이전트

VLM은 한계가 있습니다. 긴 문맥 처리, 복잡한 멀티스텝 작업에서의 성능 하락. 현실 세계 문제를 해결하기 위해서는 매우 복잡한 단계를 처리해야 합니다. Moonshot AI는 이 문제를 정면 돌파하기로 합니다. Kimi k2.5는 200만 토큰 컨텍스트 윈도우를 갖춘 멀티모달 모델이면서, 동시에 강화학습 기반 에이전틱 추론 능력을 탑재했습니다.

Moonshot AI는 중국 베이징의 AI 스타트업입니다. 창업자 Yang Zhilin은 CMU 박사 출신으로 Transformer-XL, XLNet 같은 영향력 있는 연구로 알려져 있습니다. Kimi 시리즈는 이전부터 긴 컨텍스트 처리에 강점을 두는 전략을 가져가네요.

Kimi Team, "Kimi k2.5: Scaling Reinforcement Learning with Vision Language Models to Build Multimodal Generalist Agents", arXiv preprint, arXiv:2501.12359, Jan. 2025.

링크 : https://arxiv.org/abs/2602.02276

요약

기술 스펙

모델 - 파라미터 수: 미공개 - 컨텍스트: 2,000,000 토큰 (약 150만 단어) - 모달리티: 텍스트 + 이미지

훈련 - Stage 1: Agentic RL (도구 사용, 계획, 검증) - Stage 2: RLVR (수학/코딩 자가 검증) - 데이터: 미공개 (합성 + 실제 데이터 혼합)

평가 - LiveBench: 66.9% (1위) - GSM8K: 94.2% - MATH500: 88.6% - 자체 에이전트 벤치마크 (WebVoyager-VLM, VisualWebArena-VLM)

핵심 혁신

Agentic Reasoning: 단일 추론이 아닌 계획→실행→검증→재시도 루프
Tool-Augmented Learning: 웹 검색, 코드 실행 등 외부 도구 자연스럽게 활용
Verification as Reward: 답의 정확성을 자체 검증하고 보상 신호로 활용
초장문 멀티모달: 200만 토큰에서 텍스트+이미지 동시 처리

논문 상세

Introduction

LLM이 놀라운 성과를 보이면서 VLM으로 관심이 확장되었습니다. GPT-4V, Claude 3.5, Gemini 1.5 Pro 같은 모델들이 이미지 캡셔닝이나 VQA에서 인간 수준 성능을 보였습니다. 근데 현실은 "이미지 한 장 보고 답하기"보다 훨씬 복잡합니다.

온라인 쇼핑 예시를 다시 보죠. "빨간 운동화 찾아서 제일 싼 거 장바구니에 담기"는: 1. 검색창에 입력 2. 결과 페이지 이미지 인식 3. 가격 비교 4. 최저가 클릭 5. 장바구니 버튼 찾아서 클릭

기존 VLM은 이런 멀티스텝 작업에서 급격히 성능이 떨어졌습니다. 중간에 한 번 실수하면 전체가 망가지고, 무엇보다 "계획을 세워 단계적으로 실행한다"는 개념 자체가 없었습니다.

Kimi k2.5의 아이디어는 간단하면서도 강력합니다. "VLM을 단순 인식 모델이 아니라, 스스로 계획하고 행동하는 에이전트로 훈련시키자."

이를 위해 두 가지 방법론을 도입했습니다: - Agentic RL: 도구 사용, 계획, 자가 검증 학습 - RLVR: 수학/코딩에서 답 검증을 보상으로 활용

결과적으로 LiveBench에서 66.9%로 GPT-4o(64.4%)와 Claude 3.5(65.0%)를 제쳤습니다. 근데 더 중요한 건 벤치마크 점수가 아닙니다. 실제 웹 탐색, 문서 분석, 복잡한 시각적 추론에서 기존 모델들이 실패하던 부분을 돌파했다는 겁니다.

Related Work

VLM 발전사

CLIP이 이미지와 텍스트를 같은 임베딩 공간에 매핑하면서 VLM의 기초가 만들어졌습니다. 근데 CLIP은 인식에만 특화되어 있었고 복잡한 추론은 불가능했습니다.

진짜 멀티모달 추론은 GPT-4V부터 시작됐습니다. "이미지 속 사람이 왜 웃고 있을까?" 같은 맥락적 추론이 가능해졌죠. 이후 Claude 3, Gemini 1.5, Qwen-VL이 경쟁적으로 나왔습니다.

하지만 대부분 VLM은 단일 턴 추론에 최적화되어 있었습니다. "이미지 보고 질문 답하기"는 잘하는데, "웹 페이지 탐색하며 정보 찾고 비교하고 결정하기" 같은 건 취약했습니다.

Long Context의 중요성

Transformer의 근본 한계는 계산 복잡도가 시퀀스 길이의 제곱에 비례한다는 겁니다 (\(O(n^2)\)). 초기 GPT는 2,048토큰, BERT는 512토큰이 한계였습니다.

상황이 바뀐 건 몇 가지 기술 돌파구 덕분입니다: - Sparse Attention: 모든 토큰 쌍 계산 안 하고 선택적으로 - Sliding Window: 로컬 윈도우 내에서만 어텐션 - Flash Attention: GPU 메모리 계층 효율적 활용

Claude는 100만 토큰, Gemini 1.5 Pro는 200만 토큰까지 확장했습니다. Kimi k2.5도 200만 토큰인데, 차이점은 텍스트와 이미지가 섞인 멀티모달 컨텍스트를 처리한다는 겁니다.

RL for LLMs

강화학습은 LLM 훈련의 게임체인저였습니다. InstructGPT의 RLHF는 모델이 "그럴듯한 문장" 생성을 넘어 "인간이 선호하는 답변"을 생성하도록 만들었습니다.

수학과 코딩은 다른 접근이 필요했습니다. 인간 피드백은 비싸고 느려서, 자동 검증을 보상으로 쓰기 시작했습니다: - 수학: 답을 방정식에 대입해서 성립 여부 확인 - 코딩: 테스트 케이스 실행해서 통과 여부 확인

DeepMind의 AlphaCode, OpenAI의 GPT-4o가 이 방식을 썼습니다. Kimi k2.5는 여기서 한 발 더 나가서, 모델 자체가 답을 검증하는 과정을 학습하도록 만들었습니다.

Method

Kimi k2.5 훈련은 크게 두 단계입니다. Stage 1은 Agentic RL로 에이전트 기본기를 다지고, Stage 2는 RLVR로 수학/코딩 정확성을 극대화합니다.

Stage 1: Agentic RL

에이전트가 되려면 세 가지 핵심 능력이 필요합니다: 1. 계획: 복잡한 작업을 작은 단계로 분해 2. 도구 사용: 웹 검색, 코드 실행 같은 외부 도구 활용 3. 자가 검증: 중간 결과가 올바른지 스스로 확인

전통적인 지도학습만으로는 이런 능력을 학습하기 어렵습니다. "정답 레이블"이 명확하지 않거든요. 웹에서 정보 찾는 작업만 해도 "올바른 클릭 시퀀스"는 여러 개일 수 있습니다.

강화학습은 이걸 우아하게 해결합니다. 모델은 환경과 상호작용하면서 보상을 받고, 보상을 최대화하는 방향으로 학습합니다.

Agentic RL 파이프라인은 이렇습니다:

환경: - 웹 브라우저 시뮬레이터 - 문서 분석 환경 (긴 PDF, 스프레드시트) - 멀티턴 대화 시뮬레이터

행동: - 텍스트 생성 (답변, 계획) - 도구 호출 (웹 검색, 코드 실행) - 환경 상호작용 (클릭, 스크롤, 입력)

보상 함수:

\[R = \alpha R_{\text{task}} + \beta R_{\text{efficiency}} + \gamma R_{\text{safety}}\]

\(R_{\text{task}}\): 작업 완료 여부
\(R_{\text{efficiency}}\): 최소 단계로 완료했는가
\(R_{\text{safety}}\): 유해한 행동 안 했는가

논문은 구체적 알고리즘을 공개 안 했습니다. PPO나 DPO 같은 걸 썼을 거라고 추정만 됩니다.

흥미로운 관찰:

논문에서 제일 재밌는 부분은 "Chain-of-Thought가 에이전트 환경에서는 자연스럽게 등장한다"는 겁니다. 연구진이 "단계별로 생각하라"고 명시적으로 지시 안 했는데도, 강화학습 과정에서 모델이 스스로 중간 추론 단계를 생성하기 시작했습니다.

왜일까요? 에이전트 환경에서는 "생각 → 행동 → 피드백" 루프가 반복됩니다. 모델이 "왜 이 행동을 했는가?"를 내부적으로 추적해야 다음 행동을 결정할 수 있습니다. 즉, CoT는 명시적으로 가르친 스킬이 아니라, 복잡한 환경에서 살아남기 위해 자연스럽게 발현된 생존 전략이었던 겁니다.

Stage 2: RLVR

RLVR은 수학과 코딩에서 정확성을 극대화하기 위한 방법입니다.

수학과 코딩의 공통점은 답이 객관적으로 검증 가능하다는 겁니다: - 수학: 방정식에 답을 대입해서 0이 나오는지 확인 - 코딩: 테스트 케이스 실행해서 통과하는지 확인

RLVR의 핵심은 **"모델이 생성한 답을 스스로 검증하고, 그 결과를 보상 신호로 쓴다"**는 겁니다.

프로세스는 이렇습니다: 1. 답 생성: 모델이 문제에 대한 답 \(y\) 생성 2. 검증 코드 생성: 모델이 답을 검증하는 코드 \(v(y)\) 생성 3. 실행 및 보상: \(v(y)\) 실행해서 True/False 얻고 이를 보상으로 사용

\[R_{\text{RLVR}} = \begin{cases} +1 & \text{if } v(y) = \text{True} \\ -1 & \text{if } v(y) = \text{False} \end{cases}\]

이 방식의 장점은 인간 개입 없이 대규모 확장 가능하다는 겁니다. 수백만 개 수학 문제를 합성으로 만들고, 모델이 스스로 풀고, 스스로 검증하면서 학습할 수 있습니다.

더 흥미로운 건, 모델이 "검증 과정"을 학습하면서 문제 해결 능력 자체도 향상된다는 겁니다: 1. 검증을 위해서는 문제를 깊이 이해해야 함 2. 틀린 답이 왜 틀렸는지 분석하면서 오류 패턴 학습 3. "검증 가능한 형태로 답 구조화" 능력 생김

RLVR 적용 후 GSM8K에서 94.2%, MATH500에서 88.6% 정확도를 달성했습니다. GPT-4o의 91.5%/76.8%를 크게 상회하는 수치입니다.

Long Context 훈련

200만 토큰 처리하려면 단순히 메모리 늘리는 것만으로는 부족합니다. Transformer 어텐션은 \(O(n^2)\) 복잡도라서 컨텍스트가 길어질수록 계산량이 기하급수적으로 증가합니다.

논문은 구체적 방법론을 공개 안 했지만, 다음 기술들이 조합되었을 겁니다:

Sparse Attention: 모든 토큰 쌍 계산 안 하고 일부만 선택적으로: - Sliding Window: 주변 \(w\)개 토큰만 - Global Tokens: 특정 토큰은 모든 토큰과 상호작용 - Random Sampling: 원거리 토큰 중 일부 무작위 샘플링

Multi-Scale Representations: 이미지를 여러 해상도로: - 저해상도: 전체 맥락 - 고해상도: 세부 정보

사람이 책 읽을 때 "훑어보기 → 정독" 반복하는 거랑 비슷합니다.

MoE 가능성: 200만 토큰을 실시간 처리하려면 MoE 아키텍처가 필수였을 가능성이 높습니다. MoE는 입력에 따라 일부 전문가 네트워크만 활성화하므로, 전체 파라미터는 크지만 추론 시 계산량은 적습니다.

Experiments

전체 성적:

모델	LiveBench
Kimi k2.5	66.9%
Claude 3.5 Sonnet	65.0%
GPT-4o	64.4%
Gemini 1.5 Pro	63.1%

수치 차이가 크지 않아 보이지만, 이건 평균의 함정입니다. 세부 카테고리를 보면 Kimi k2.5의 강점이 명확합니다:

카테고리	Kimi k2.5	GPT-4o	Claude 3.5
Reasoning	89.3%	84.1%	86.7%
Math	94.2%	91.5%	89.2%
Coding	87.6%	85.3%	86.1%
Web Agents	72.4%	58.9%	61.2%
Long Context	81.7%	69.3%	75.8%

특히 주목할 부분: - Web Agents: 13.5%p 차이 - Agentic RL 효과 - Long Context: 12.4%p 차이 - 200만 토큰 처리 능력 - Math: 2.7%p 차이 - RLVR 효과

실제 사례 분석

논문에서 제시한 흥미로운 사례를 봅시다.

사례 1: 복잡한 웹 탐색

작업: "항공권 가격 비교 사이트에서 서울→도쿄 왕복 중 제일 싼 거 찾아서 스크린샷"

기존 VLM: 1. 검색창에 "서울 도쿄" 입력 → 성공 2. 검색 버튼 클릭 → 성공 3. 결과 페이지 스크롤 → 실패 (언제 멈춰야 할지 모름)

Kimi k2.5: 1. 페이지 구조 분석 ("항공권 리스트는 가격 오름차순 정렬됨") 2. 첫 번째 항목 확인 → 가격 읽기 3. 스크롤하며 더 저렴한 항목 탐색 4. 최저가 발견 시 스크린샷 5. 자가 검증: "이전 항목들보다 정말 저렴한가?" 확인

차이는 명시적 계획과 자가 검증입니다. Kimi k2.5는 단순히 "다음 행동" 예측이 아니라, "왜 이 행동이 필요한가?"를 이해하고 있습니다.

사례 2: 긴 문서 분석

작업: 200페이지 기업 재무보고서에서 "영업이익률이 전년 대비 증가했는가?"

기존 VLM 한계: - 컨텍스트 윈도우 부족 (전체 문서 한 번에 처리 불가) - 청킹 필요 → 정보 손실 - 표와 차트 섞여 있어 텍스트만으로는 불완전

Kimi k2.5: 1. 전체 200페이지 컨텍스트 로드 2. "영업이익률" 키워드 검색 → 관련 섹션 발견 3. 해당 페이지 표와 차트를 이미지로 분석 4. 전년도 데이터 찾기 (다른 페이지에 위치) 5. 비교 계산 6. 답변: "네, 전년 대비 2.3%p 증가 (2023: 15.2% → 2024: 17.5%)"

핵심은 200만 토큰 컨텍스트가 단순히 "긴 텍스트"가 아니라, 복잡한 멀티모달 문서를 통째로 이해하기 위한 겁니다.

Ablation Study:

각 컴포넌트의 기여도 측정:

설정	LiveBench	변화
Full Model	66.9%	-
Agentic RL 제거	61.2%	-5.7%
RLVR 제거	63.8%	-3.1%
Long Context 제거	59.4%	-7.5%

Long Context가 제일 큰 영향을 미칩니다. 전체 문서 이해 능력이 다른 모든 능력의 기반이 되는 거죠.

한계와 미공개 사항

논문이 인상적인 건 사실이지만, 비판적으로 봐야 할 부분도 많습니다.

미공개 정보: - 파라미터 수 - 정확한 훈련 알고리즘 (PPO? DPO?) - 데이터셋 구성과 크기 - 컴퓨팅 리소스 - 하이퍼파라미터

이 정도면 재현이 사실상 불가능합니다. 연구 논문이라기보다는 기술 보고서에 가깝습니다.

벤치마크 오염 가능성: LiveBench는 주기적으로 새 문제 추가해서 오염 방지한다고 하는데, Kimi k2.5의 압도적 성능이 의심스럽긴 합니다. 특히 Web Agents에서 13.5%p 차이는 너무 큽니다.

실제 배포 성능: 논문에서 보고한 성능이 실제 서비스에서도 나오는지는 별개입니다. 특히 200만 토큰 처리는 엄청난 계산 비용이 들 텐데, 실시간 서비스가 가능한지 의문입니다.

안전성 고려 부족: 에이전트가 웹을 자유롭게 탐색하고 코드를 실행하는데, 안전성 메커니즘에 대한 논의가 거의 없습니다. 악의적 사용자가 모델을 조종해서 위험한 행동을 하게 만들 수 있는 가능성은 어떻게 막는지 명확하지 않습니다.

결론

Kimi k2.5는 VLM을 에이전트로 진화시킨 의미 있는 시도입니다. 200만 토큰 멀티모달 컨텍스트, 강화학습 기반 계획-실행-검증 루프, 자가 검증 능력은 실제로 인상적입니다. 근데 논문이 너무 많은 걸 숨겼습니다. 재현성이 없는 연구는 과학적 가치가 제한적입니다. 벤치마크 점수는 좋은데, 실제 서비스에서 이 성능이 나오는지, 비용은 얼마나 드는지, 안전성은 어떻게 확보하는지 모르겠습니다. 그래도 방향성은 맞다고 봅니다. LLM의 다음 단계는 에이전트입니다. 단순히 "질문에 답하기"가 아니라 "복잡한 작업을 자율적으로 수행하기"로 가야 합니다. Kimi k2.5가 그 길을 조금 더 열었다면, 그것만으로도 의미가 있습니다. 개인적으로는 RLVR이 제일 흥미롭습니다. 모델이 스스로 답을 검증하면서 학습한다는 아이디어는 단순하지만 강력합니다. 이게 수학/코딩을 넘어 다른 도메인으로도 확장될 수 있을지 궁금합니다. 앞으로 더 많은 디테일이 공개되길 바랍니다. 그래야 커뮤니티가 이 연구를 제대로 평가하고, 발전시킬 수 있을 테니까요.