MMG2Skill - Can Agents Distill In-the-Wild Guides into Self-Evolving Skills

🏷️ 논문 에이전트 AI평가 멀티모달

X. Che, J. Xiong, Y. Ge, X. Lei, et al., "MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?," arXiv:2606.01993, 2026.

인터넷에는 절차적 지식이 넘쳐납니다. 위키하우의 단계별 안내, 게임 위키의 제작 레시피, 우분투 공식 문서의 설정법 같은 것들입니다. 에이전트가 긴 작업을 풀 때 이 지식을 쓸 수 있다면 좋겠지만, 문제가 있습니다. 이런 가이드는 멀티모달이고(글·이미지·스크린샷·영상이 섞임), 이질적이고, 노이즈가 많고, 무엇보다 사람이 실행한다고 암묵적으로 가정합니다. 그래서 에이전트가 필요로 하는 "실행 가능한 스킬"로 곧장 쓰기 어렵습니다.

처신위 외 연구진의 MMG2Skill은 이 간극을 메우는 문제를 guide-to-skill 학습으로 정식화합니다. 사람용 가이드를 실행 가능한 스킬로 변환하고, 에이전트가 관측할 수 있는 실행 궤적으로 그 스킬을 계속 개선하는 것입니다. 흥미롭게도 변환의 결과물은 SKILL.md 형식의 절차인데, Claude의 스킬 생태계와 같은 형식이라 독자 입장에서 체감이 큽니다.

저자

난징대학교와 콰이쇼우(Kuaishou Technology)가 함께한 작업입니다. 공동 1저자가 여섯 명이고, 교신저자는 난징대의 류자헝입니다.

류자헝는 난징대 NJU-LINK 랩을 이끄는 LLM 연구자로, 추론과 에이전트 평가가 전문입니다. LLM 추론을 게임으로 평가하는 KORGym의 저자이기도 합니다. 게임·에이전트 평가를 다뤄 온 이력이, GUI·게임·전략 세 도메인으로 짜인 이 논문의 벤치마크 설계와 자연스럽게 이어집니다.

배경

재사용 가능한 스킬을 다루는 연구는 많았습니다. 다만 그 스킬은 보통 전문가가 직접 제공하거나, 모델이 생성하거나, 에이전트가 자기 경험에서 발견한 것이었습니다. 인터넷에 이미 쌓여 있는 사람용 가이드를 직접 스킬로 끌어오는 방향은 비어 있었습니다.

그런데 사람용 가이드를 그대로 에이전트에 넣으면 잘 안 됩니다. 가이드에는 곁가지 작업, 암묵적인 시작 상태 가정, 런타임에서 어긋나면 더 이상 맞지 않는 단계가 섞여 있기 때문입니다. 가이드의 절차적 내용이 없어서가 아니라, 가이드와 실제 환경 사이의 그라운딩이 어긋나는 것이 문제입니다.

어떻게 만들었나

MMG2Skill은 세 단계가 맞물린 폐루프입니다.

Stage 1 (Tutorial-to-Skill): 멀티모달 가이드(HTML·이미지·스크린샷·영상)를 받아 편집 가능한 SKILL.md 절차로 증류합니다. 사람용 안내를 에이전트가 따를 수 있는 구조화된 스킬로 바꾸는 단계입니다.
Stage 2 (Skill-Conditioned Agent Loop): 그 스킬을 조건으로 VLM 에이전트가 환경에서 작업을 수행합니다. 관측과 행동을 주고받는 닫힌 루프입니다.
Stage 3 (Skill Revision): 에이전트가 관측한 실행 궤적을 진단해, 어긋난 부분을 찾아 스킬 캐시를 수정합니다. 수정된 스킬이 다음 작업에 다시 쓰입니다.

핵심은 가이드를 한 번 변환하고 끝내는 게 아니라, 실행 궤적의 피드백으로 스킬을 계속 고쳐 나간다는 데 있습니다. 스킬 구성과 수정을 각각 \(\hat{S}_i = \text{ConstructSkill}(G_i, E)\), \(\hat{S}_{i+1} = \text{Revise}(\hat{S}_i, \tau, \ldots)\)로 보면, 가이드 \(G_i\)에서 출발한 스킬이 궤적 \(\tau\)의 진단을 거쳐 점점 환경에 맞게 다듬어집니다.

평가를 위해 저자들은 MMG2Skill-Bench를 새로 만들었습니다. 성공 여부를 추론할 수 있는 상호작용 작업과, 인터넷에서 가져온 멀티모달 가이드를 GUI·게임·전략 세 도메인에 걸쳐 짝지은 첫 벤치마크입니다.

결과

6개 VLM 백본으로 평가했고, MMG2Skill은 모든 모델–도메인 조합에서 바닐라 에이전트를 앞섭니다. 메인 설정 기준 18개 셀 전부가 양의 이득을 냈고, 백본별 매크로 평균 이득은 +12.8에서 +25.3 퍼센트포인트입니다. 단일 셀 최대 이득은 게임 도메인의 Gemini가 +33.33 퍼센트포인트였습니다.

이득은 약한 백본에서 특히 컸지만(GUI의 Qwen은 +25pp), 강한 백본도 여전히 덕을 봤습니다(게임의 GPT-5.5가 +6.67pp). 가이드에서 끌어온 절차적 지식이, 강한 모델이 이미 내재화한 것과 겹치지 않는 새 정보라는 뜻입니다. 대표적인 예가 게임 도메인의 "죽순으로 막대 만들기"입니다. 원재료로 죽순이 주어졌는데도 바닐라 에이전트는 나무판자 레시피를 시도하며 나무를 찾다 단계 예산을 소진합니다. 반면 MMG2Skill 에이전트는 가이드가 일러 준 죽순 경로를 따릅니다. 공개된 절차적 지식이 에이전트의 사전 지식에 반드시 들어 있지는 않다는 것을 보여 줍니다.

특히 이 이득이 더 긴 롤아웃에서 온 게 아니라는 점이 중요합니다. GUI와 게임에서 MMG2Skill은 점수를 올리면서도 평균 시도 단계를 줄였습니다. 맥락이 길어져서가 아니라, 헤매는 곁길이 줄어든 결과입니다.

어블레이션은 두 부품이 모두 필요함을 보여 줍니다.

GUI 도메인	성공률 (%)
Vanilla	42.74
Raw Guide (원본 가이드 주입)	42.79
w/o revision (구조화만, 수정 없음)	51.08
MMG2Skill (전체 폐루프)	55.67

원본 가이드를 그대로 주입하는 것은 신뢰할 수 없습니다. GUI에서는 사실상 제자리고, 게임·전략에서는 오히려 성능이 떨어집니다(게임 최대 -1.67pp). 편집 가능한 인터페이스가 없으면 가이드의 잘못된 조각이 유용한 절차를 압도하기 때문입니다. 가이드를 구조화된 스킬로 바꾸는 것만으로 바닐라를 넘어서고(51.08), 거기에 궤적 기반 수정을 더하면 가장 높아집니다(55.67).

회고

MMG2Skill의 효과는 가이드와 런타임 사이의 그라운딩 격차가 클수록 커집니다. 바꿔 말하면, 가이드가 환경과 잘 맞는 경우에는 이득이 작을 수 있습니다. 또 스킬 수정은 에이전트가 관측할 수 있는 궤적의 진단에 의존하므로, 성공 여부를 추론하기 어려운 작업이나 관측이 빈약한 환경에서는 폐루프가 약해질 여지가 있습니다.

그럼에도 방향은 분명합니다. 인터넷에 이미 쌓인 사람용 절차 지식을, 한 번의 변환이 아니라 실행으로 다듬는 스킬로 끌어올 수 있다는 것입니다. MetaForge - A Self-Evolving Multimodal Agent that Retrieves, Adapts, and Forges Tools On Demand가 도구를 스스로 만들어 재사용하는 자가진화를 보였다면, MMG2Skill은 사람의 가이드를 출발점 삼아 스킬을 자가진화시킵니다. 2026년 에이전트 연구가 "스스로 진화하는 스킬"이라는 공통 흐름으로 모이고 있음을 함께 보여 줍니다.

정리

MMG2Skill은 guide-to-skill 학습을 정식화하고, 사람용 멀티모달 가이드를 SKILL.md 절차로 증류한 뒤 실행 궤적 진단으로 폐루프 수정하는 프레임워크입니다.
6개 VLM, 18개 모델–도메인 셀 전부에서 바닐라를 앞서며 매크로 평균 +12.8~25.3pp, 더 긴 롤아웃이 아니라 더 적은 곁길에서 온 이득입니다.
원본 가이드 주입은 오히려 해가 될 수 있고, 구조화와 궤적 기반 수정이 둘 다 있어야 효과가 납니다. 평가용 MMG2Skill-Bench(GUI·게임·전략)도 함께 공개됐습니다.