HeavySkill - Heavy Thinking as the Inner Skill in Agentic Harness

🏷️ 논문 LLM

원제: HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

저자: Jianing Wang, Linsen Guo, Zhengyu Chen, Qi Guo, Hongyu Zang, Wenjie Shi, Haoxiang Ma, Xiangyu Xi, Xiaoyu Li, Wei Wang, Xunliang Cai

발행: 2026.05.04, arXiv (arXiv:2605.02396)

링크: https://arxiv.org/abs/2605.02396

에이전틱 AI 시스템은 점점 복잡해지고 있습니다. 메모리, 스킬 라이브러리, 툴 호출, 다중 에이전트 오케스트레이션 — 이 정교한 구조 중 어느 부분이 실제로 성능을 만드는지 불분명합니다. HeavySkill은 이 물음에 직접 답을 냅니다.

결론부터 말하면: 병렬 추론(parallel reasoning)과 순차적 숙고(sequential deliberation), 이 두 단계로 구성된 단순한 패턴이 복잡한 오케스트레이션 프레임워크의 핵심을 대체할 수 있다는 것입니다. 그리고 이 패턴은 강화 학습으로 더 확장 가능한 내재적 스킬입니다.

문제: 에이전틱 하네스의 성능 원천은 무엇인가

Claude Code의 스킬 라이브러리, OpenClaw, Hermes-Agent 같은 에이전틱 하네스들은 복잡한 추론 작업에서 인상적인 결과를 냅니다. 그런데 연구진이 지적하는 건, 이 프레임워크들의 진짜 성능 원천이 무엇인지 체계적으로 분석된 적이 없다는 점입니다.

기존 Test-Time Scaling(TTS) 방법들은 크게 두 갈래였습니다. 하나는 K개의 독립 추론 경로를 뽑아 마지막에 모아서 투표하는 방식(Vote@K), 다른 하나는 미리 정해진 지점에서 가지를 치고 합치는 방식입니다. 둘 다 구조가 정적이고, 추론이 어떻게 흘러가는지에 따라 유연하게 대응하지 못합니다.

Heavy Thinking은 이 구조를 바꿉니다.

방법론: 두 단계 파이프라인

Heavy Thinking의 구조는 간단합니다.

1단계 — 병렬 추론(너비)

동일한 문제에 대해 K개의 독립 추론 경로를 생성합니다. 각 경로는 서로를 보지 않고 독립적으로 완성됩니다. 이 단계에서의 성능 지표는 기존 TTS와 같습니다. Mean@K(M@K), Pass@K(P@K), Vote@K(V@K).

2단계 — 순차적 숙고(깊이)

K개의 추론 경로 전체를 하나의 "요약 모델"에게 넘깁니다. 요약 모델은 모든 경로를 읽고 분석한 뒤 최종 답을 생성합니다. 단순히 다수결이 아닙니다. 경로들을 교차 분석해 어느 하나에도 없던 답을 도출할 수 있습니다.

이 전체 파이프라인의 성능 지표가 HeavyMean@K(HM@K) 입니다.

실험 결과

STEM 태스크에서 Vote@K를 일관되게 압도

Table 1에 정리된 STEM 태스크(AIME24, AIME25, AMC23, HMMT25-Feb, GPQA Diamond, MATH500 등) 전반에서 HM@4는 Vote@4를 모두 앞질렀습니다.

주목할 수치들입니다.

모델

설정

M@K

P@K

Vote@4

HM@4

GPT-OSS-20B

K=8, AIME25

69.8%

95.0%

83.3%

90.0%

Qwen3-32B

K=8, AIME25

63.0%

89.0%

83.3%

80.0%

KimiK2 Thinking

K=8, AIME25

95.4%

100%

100%

95.2%

GLM4.6

K=8, AIME25

91.3%

96.7%

100%

93.1%

GPT-OSS-20B가 AIME25에서 83.3%(Vote@4)에서 90.0%(HM@4)로 뛰는 건 의미 있는 차이입니다. 6.7%p가 수능 만점권 문제 수준의 수학 벤치마크에서 나왔습니다.

이론적 상한(Pass@K)을 넘는 경우가 있습니다

더 흥미로운 발견은 HP@4(Heavy Thinking 자체의 Pass@K)가 일반 P@K를 초과하는 사례입니다. DeepSeek V3.2, GPT-5 Thinking 같은 최전선 모델에서 이 현상이 관찰됐습니다.

무슨 의미냐면, 순차적 숙고 단계가 단순히 K개 경로 중에서 고르는 게 아니라, 각 경로의 부분적 인사이트를 교차 종합해 어느 단일 경로에도 없던 정답을 새로 만들어낸다는 겁니다. 이 논문에서 이 현상을 "cross-trajectory synthesis"라고 부릅니다.

일반 추론 태스크: 태스크 성격에 따라 갈립니다

Table 2의 일반 추론 태스크에서는 결과가 엇갈립니다.

Heavy Thinking은 정답이 명확한 작업에 잘 맞고, 취향·선호가 기준인 작업에는 맞지 않습니다.

핵심 발견 네 가지

1. 요약 모델이 강한 추론 모델일 필요가 없습니다

2단계 순차적 숙고에 어떤 모델을 쓰는지 분리해서 실험했습니다. 1단계 병렬 추론은 R1-Distill-Qwen-7B로 고정하고, 2단계에 R1-Distill-Qwen3-8B와 Qwen2.5-32B-Instruct를 각각 써봤습니다.

Qwen2.5-32B-Instruct는 추론 특화 모델이 아닙니다. AIME25 독립 풀이 정확도가 R1-Distill-Qwen-7B보다 낮습니다. 그런데 2단계 요약 모델로 쓰면 성능이 올라갑니다.

결론: 2단계는 추론 능력보다 종합·분석·요약 능력이 핵심입니다. 더 크고 유연한 instruction-following 모델이 2단계에 적합할 수 있습니다.

2. 병렬 통과율이 낮은 어려운 문제에서 교정 효과가 큽니다

10k개 쿼리를 병렬 추론 통과율 구간별로 나눠 분석했습니다.

기존 다수결(Vote@K)이 가장 취약한 구간, 즉 정답 경로가 소수인 어려운 문제에서 Heavy Thinking이 가장 강점을 발휘합니다.

3. 반복 숙고(iteration)는 양날의 검입니다

K=8, N=4번 반복 숙고(각 라운드가 이전 요약을 참조)를 실험했습니다. HM@K는 반복할수록 올라갑니다. 그런데 HP@K는 반복할수록 떨어집니다.

원인은 누적 정보 간섭입니다. 이전 라운드의 요약이 다음 라운드의 탐색 공간을 제약하고, 초기 오류나 편향이 증폭됩니다. 깊이(iteration)와 정보 일관성 사이의 트레이드오프입니다.

4. 툴 사용 시나리오에서도 작동합니다

Python 인터프리터를 툴로 쓰는 에이전틱 설정에서도 실험했습니다(Qwen3-8B, Qwen3-32B, GPT-OSS-20B). 병렬 추론 단계에서 툴 호출 결과를 피드백으로 받고, 2단계 숙고에서 이 피드백까지 종합합니다.

GPT-OSS-20B 기준 AIME25에서 Vote@4 83.3% → HM@4 90.0%, HMMT25에서 Vote@4 73.3% → 85.7%. 툴 인터리브 설정에서도 패턴은 동일하게 작동했습니다.

강화 학습으로 스케일 가능한 내재적 스킬

논문의 핵심 주장 중 하나가 "Heavy Thinking은 학습 가능한 스킬"이라는 점입니다.

RLVR(Reinforcement Learning with Verifiable Rewards)를 Heavy Thinking 프레임워크에 적용하면 모델이 이 두 단계 패턴을 파라미터에 내재화할 수 있습니다. 단순히 추론 시 프레임워크를 씌우는 게 아니라, 모델 자체가 "어떻게 병렬로 생각하고 어떻게 종합할지"를 학습합니다.

이 관점에서 논문 제목의 "Inner Skill"이 의미를 갖습니다. Heavy Thinking은 에이전틱 하네스 외부에서 씌워지는 구조물이 아니라, LLM 내부에 학습된 스킬로 존재할 수 있습니다.

에이전틱 하네스와의 연결

논문은 Claude Code의 스킬 라이브러리, OpenClaw 등에서 영감을 받았다고 명시합니다. 이 프레임워크들이 외부에서 워크플로우를 조율하는 방식 대신, Heavy Thinking을 내부 스킬로 학습시키면 동일한 성능을 더 견고하게 달성할 수 있다는 논지입니다.

구체적으로: 복잡한 오케스트레이션 프레임워크 없이도, "모든 각도에서 먼저 생각하고, 그 생각들을 하나로 종합하라"는 스킬 하나가 에이전틱 하네스의 핵심 성능을 대체할 수 있다는 것입니다.

한계와 열린 질문

결과는 인상적이지만 몇 가지를 짚어야 합니다.

Arena-Hard의 실패는 중요한 제약입니다. 선호 기반 태스크에서 Heavy Thinking이 도움이 안 되거나 역효과를 낸다는 건, 이 프레임워크의 적용 범위가 "정답이 있는 작업"에 한정됨을 의미합니다. 실제 비즈니스 환경의 상당 부분은 정답이 없는 판단 문제입니다.

계산 비용도 현실적인 문제입니다. K=8~16개 경로를 병렬로 생성하고 다시 전체를 요약하는 건 단일 추론보다 훨씬 많은 컴퓨팅을 씁니다. HM@4 vs Vote@4의 성능 차이가 이 비용을 정당화하는지는 사용 사례마다 다릅니다.

이론적 상한 초과가 어떤 조건에서 일어나는지도 아직 완전히 밝혀지지 않았습니다. HP@4 > P@K 현상이 최전선 모델에서 관찰됐지만, 왜 일부 모델·일부 태스크에서만 나타나는지의 메커니즘은 열린 질문입니다.

RLVR 적용 결과도 이 논문에선 예비 결과 수준입니다. Heavy Thinking이 진짜로 모델 파라미터에 내재화됐을 때 어떤 수준까지 도달하는지, 더 체계적인 후속 연구가 필요합니다.

방향은 맞습니다. 복잡한 에이전틱 하네스의 성능을 단순하고 학습 가능한 패턴으로 환원하려는 시도 자체가 의미 있습니다. 검증 가능한 정답이 있는 고난도 추론 작업이라면, 지금 당장 써볼 만한 프레임워크입니다.