2026. 02. 이달의 인물 - Yang Zhilin

🏷️ 잡담

2월의 AI 연구 흐름에서 한 가지 방향이 뚜렷하게 보였습니다. 모델이 "답하는 존재"에서 "계획하고 행동하는 존재"로 넘어가려는 시도, 즉 에이전트 전환의 움직임입니다. 그 흐름을 가장 선명하게 보여준 논문이 Kimi 팀의 K2.5였고, 그 배경에는 Transformer-XL에서 Moonshot AI까지 일관된 궤적을 그어온 연구자가 있습니다.

Yang Zhilin

Yang Zhilin은 중국 광둥성 출신으로, 칭화대학교 컴퓨터과학과를 수석 졸업한 뒤 카네기멜런대학교에서 박사 학위를 4년 미만 만에 취득했습니다. 박사 과정 중 Google Brain과 협력해 발표한 Transformer-XL과 XLNet은 BERT 이후 사전학습 언어모델 연구의 방향을 다시 짚은 논문으로, 지금도 LLM 기초 연구에서 자주 인용됩니다. 이후 2023년 3월 Moonshot AI를 창업하며 자신의 연구 철학인 "긴 컨텍스트, 깊은 추론"을 제품 전략으로 옮겨왔습니다. 그리고 2026년 2월, 그 전략이 가장 완성도 높게 구현된 결과물인 Kimi K2.5 논문을 공개했습니다.

Kimi k2.5 - 200만 토큰의 멀티모달 에이전트

기존 VLM 연구의 한계는 "단일 턴 추론"에 최적화되어 있다는 점이었습니다. 이미지를 보고 질문에 답하는 것은 잘하는데, 여러 단계를 거쳐 목표를 달성해야 하는 실제 업무에서는 급격히 성능이 떨어졌습니다. 중간 단계에서 한 번 판단이 어긋나면 이후 모든 행동이 연쇄적으로 어긋나고, 무엇보다 "왜 이 행동을 하는가"를 스스로 추적하는 능력이 없었습니다.

Kimi K2.5는 이 문제를 강화학습 기반 2단계 훈련으로 접근했습니다. 첫 번째 단계인 Agentic RL에서는 모델이 계획, 도구 사용, 자가 검증 능력을 환경과의 상호작용 속에서 학습합니다. 웹 브라우저 시뮬레이터나 문서 분석 환경 안에서 행동을 선택하고, 작업 완료 여부와 효율성을 보상으로 받으며 점진적으로 에이전트다운 행동 방식을 갖춰갑니다. 특히 연구진이 명시적으로 가르치지 않았는데도 복잡한 환경에서 살아남기 위해 연쇄 사고(Chain-of-Thought) 패턴이 자연스럽게 등장했다는 관찰은 인상적입니다. 단순히 다음 행동을 예측하는 것이 아니라, 현재 상태를 추적하고 다음 단계를 정당화하는 내부 구조가 생겨난 것입니다.

두 번째 단계인 RLVR(Reinforcement Learning with Verifiable Rewards)은 수학과 코딩 정확성을 높이기 위한 방법입니다. 핵심 아이디어는 모델이 답을 생성한 뒤, 그 답을 검증하는 코드까지 직접 작성해서 실행하고 그 결과를 보상 신호로 사용한다는 것입니다. 답의 옳고 그름을 인간이 평가하는 대신, 방정식 대입이나 테스트 케이스 실행이라는 객관적 검증 과정이 보상을 결정합니다. 이 방식이 수백만 개의 합성 문제에 대해 자동으로 확장될 수 있다는 점에서, 기존 RLHF 방식과는 다른 스케일링 가능성을 보여줍니다.

이 두 단계 훈련 위에 200만 토큰 멀티모달 컨텍스트가 얹혀 있습니다. 200페이지짜리 재무보고서를 통째로 올려두고 특정 수치를 비교하거나, 항공권 예매 사이트를 탐색하면서 최저가를 찾아 스크린샷을 찍는 시나리오에서 기존 VLM이 실패했던 지점들을 통과합니다. LiveBench 전체 점수는 GPT-4o나 Claude 3.5 Sonnet과 큰 차이가 없어 보이지만, 세부 카테고리를 보면 Web Agents에서 13.5%p, Long Context에서 12.4%p 앞섰습니다. 에이전트 능력과 긴 컨텍스트 처리가 이 모델의 실질적 강점임을 수치가 뒷받침합니다.

다만 논문이 숨긴 것도 많습니다. 파라미터 수, 구체적 알고리즘, 데이터셋 구성이 모두 미공개이며 재현이 사실상 불가능한 구조입니다. 학술 논문보다는 기술 보고서에 가깝습니다. 이 점은 냉정하게 볼 필요가 있습니다.

선정 이유

Yang Zhilin을 2026년 2월의 인물로 선정한 이유는 한 편의 논문 때문만이 아닙니다. Transformer-XL에서 시작해 XLNet, 그리고 Kimi 시리즈로 이어지는 그의 연구 궤적에는 일관된 질문이 있습니다. "언어 모델이 더 긴 맥락을 더 잘 활용하려면 어떻게 해야 하는가." 박사 시절에는 그 질문이 아키텍처 개선으로 나타났고, 창업 이후에는 제품 전략으로 구현됐으며, K2.5에서는 멀티모달 에이전트라는 형태로 확장됐습니다.

K2.5 논문이 2월에 나오면서 에이전트 학습 방법론, 특히 검증 가능한 보상 신호를 이용한 자가 개선 루프에 대한 커뮤니티 논의가 다시 활발해졌습니다. VLM을 단순 인식 도구에서 에이전트로 끌어올리는 방향에서 Moonshot AI가 어느 위치에 있는지를 보여준 시점이기도 합니다. 중국 AI 진영에서 DeepSeek·Qwen과 나란히 언급되는 Kimi가 어떤 연구자의 손에서 나왔는지를 기억해둘 만한 달이었습니다.