Scaling the Horizon, Not the Parameters - Reaching Trillion-Parameter Performance with a 35B Agent
Agents-A1 Team, "Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent," arXiv:2606.30616, 2026.
저자
Agents-A1은 상하이 인공지능 연구소(Shanghai Artificial Intelligence Laboratory)의 팀 프로젝트입니다. Bo Zhang과 Lei Bai가 프로젝트 공동 리드를 맡았고, 수십 명의 연구자가 영역별로 나뉘어 참여했습니다. 부록 A.1에는 KAG 인프라(Zongsheng Cao, Bihao Zhan, Zhijie Zhong), 전-도메인 SFT(Yue Fan, Tianshuo Peng), OPD(Shiyang Feng, Yi Xie, Songtao Huang), 도구 호출, 과학 추론, 지시 따르기 팀이 별도 명시돼 있습니다.
이 팀이 이 연구에 모인 맥락은 명확합니다. 상하이 AI Lab은 InternLM, InternVL 등 경쟁력 있는 오픈웨이트 모델을 꾸준히 발표해 왔지만, 에이전트 특화 모델은 공백이 있었습니다. Kimi-K2.6, DeepSeek-V4-Pro가 100B 이상 활성 파라미터로 에이전트 성능을 끌어올리는 시점에, 35B 모델로 같은 성능을 낼 수 있다는 것을 증명하는 것이 이 연구의 포지셔닝입니다.
배경
에이전트 성능을 높이는 방법은 크게 두 가지입니다. 파라미터를 더 키우거나, 에이전트가 한 번에 처리할 수 있는 지평선(horizon)을 늘리는 것입니다.
지금까지의 주류는 파라미터 스케일링이었습니다. Kimi-K2.6은 대규모 MoE 아키텍처에 K2 추론 방식을 결합했고, DeepSeek-V4-Pro도 수백 B 파라미터 규모입니다. 파라미터가 많을수록 더 풍부한 표현을 학습할 수 있지만, 운영 비용이 급등하고 서비스 레이턴시가 길어집니다.
반면 에이전트가 장기 태스크에서 실패하는 원인을 들여다보면, 대부분이 파라미터 부족이 아닙니다. 지식 검색 인프라가 약하거나, 도구 호출 시퀀스를 오래 유지하지 못하거나, 중간 결과를 검증하지 못하는 데 있습니다. 이 문제들은 파라미터를 늘린다고 해결되지 않습니다.
Agents-A1은 이 관점에서 출발합니다. "파라미터 대신 지평선을 늘리면 35B 모델로 1T급 에이전트 성능을 낼 수 있다"는 가설입니다.
어떻게 만들었나
Agents-A1은 Qwen3.5-35B-A3B(35B MoE, 활성 파라미터 약 3.5B)를 베이스로 세 단계 훈련을 거칩니다.
KAG: 지식-행동 그래프
긴 지평선 궤적을 생성하려면 먼저 지식 인프라가 있어야 합니다. 저자들은 도메인별 지식-행동 그래프(Knowledge-Action Graph, KAG)를 도입합니다. 도메인 \(d\)에 대한 KAG는 4-튜플로 정의됩니다.
\[G_d = (C_d, A_d, O_d, V_d)\]
\(C_d\)는 도메인 코퍼스(증거 청크, 엔티티, 제약 조건), \(A_d\)는 행동 공간(도구 호출, 쿼리, 검색), \(O_d\)는 관측 공간(실행 결과), \(V_d\)는 검증기 집합(정확성 자동 검사)입니다. 각 행동 레코드는 \((a_t, o_t, v_t)\) 삼중쌍으로 표현됩니다. 도구 보강 자기 대전(self-play) 루프가 이 KAG를 도메인별 세부 sub-KAG로 확장하면서, 평균 45K 토큰 길이의 장기 궤적 데이터를 생성합니다.
1단계: 전-도메인 SFT
검색, 코딩, 에이전트 태스크, 과학 연구, ML 엔지니어링, 지시 따르기 등 6개 도메인 데이터를 한데 모아 기본 에이전트를 훈련합니다. 도메인 간 데이터 양 차이가 크기 때문에 도메인 정규화 손실을 씁니다.
\[\mathcal{L}_{SFT} = \sum_{d=1}^{D} \lambda_d \, \mathcal{L}_d\]
\(\lambda_d\)는 각 도메인 \(d\)의 그래디언트 기여를 균등하게 정규화하도록 계산됩니다. 데이터가 많은 도메인이 훈련을 지배하는 것을 막는 역할입니다.
2단계: 도메인 전문 교사 훈련
6개 도메인별로 전문 교사 모델을 각각 훈련합니다. 검색 교사는 검색 태스크 강화학습, 코딩 교사는 코딩 특화 SFT와 RL, 에이전트 교사는 도구 호출 RL을 각각 적용합니다. 12시간 장기 최적화 실험도 이 단계에 포함됩니다.
3단계: 다중-교사 OPD + SVA
6개 교사 모델에서 단일 학생 모델로 지식을 옮기는 다중-교사 OPD(On-Policy Distillation) 단계입니다. 이 단계의 핵심 기법이 **SVA(Salient Vocabulary Alignment)**입니다.
일반적인 지식 증류는 교사의 전체 어휘 분포를 학생이 모방하도록 KL 발산을 최소화합니다. 그런데 6개 도메인 교사의 어휘 특성이 매우 다릅니다. 화학 교사가 분자 명칭에 높은 확률을 부여할 때, 코딩 교사는 같은 토큰에 거의 확률을 주지 않습니다. 이 불일치를 전체 어휘에 걸쳐 증류하면 학생 모델이 혼란을 겪습니다.
SVA는 각 교사가 높은 확률로 선택하는 상위 \(k\)개 토큰에만 역방향 KL을 적용합니다. 교사마다 자신 있는 어휘 영역만 학생에게 전달해 6개 도메인을 하나의 모델에 안정적으로 수렴시킵니다.
결과
Agents-A1은 9개 벤치마크에서 Qwen3.6-35B, Kimi-K2.6, DeepSeek-V4-Pro, GPT-5.5와 비교됩니다. 단위는 모두 정확도(%)입니다.
벤치마크 |
Agents-A1 |
Qwen3.6-35B |
Kimi-K2.6 |
DSV4-Pro |
GPT-5.5 |
|---|---|---|---|---|---|
SEAL-0 |
56.4 |
38.7 |
50.5 |
55.0 |
42.3 |
IFBench |
80.6 |
64.4 |
71.8 |
73.5 |
75.9 |
HiPhO |
46.4 |
37.7 |
41.1 |
38.7 |
43.3 |
FS-O |
79.0 |
60.3 |
73.0 |
76.0 |
78.0 |
MolBench |
56.8 |
48.7 |
21.6 |
37.8 |
62.2 |
BrowseComp |
75.5 |
67.9 |
83.2 |
83.4 |
84.4 |
HLE w/tools |
47.6 |
36.2 |
54.0 |
48.2 |
52.2 |
SciCode |
44.3 |
35.8 |
53.5 |
50.0 |
56.1 |
MLE-Bench-Lite |
43.9 |
34.9 |
62.1 |
63.6 |
72.7 |
DSV4-Pro = DeepSeek-V4-Pro
9개 중 5개(SEAL-0, IFBench, HiPhO, FS-O, MolBench)에서 1위입니다. SEAL-0은 장기 에이전트 태스크 전반을 측정하는 벤치마크로, 여기서의 우위는 논문의 핵심 주장인 "지평선 스케일링"과 직결됩니다. IFBench(지시 따르기)에서도 경쟁 모델 대비 5~16점 앞섭니다. MolBench에서 Kimi-K2.6(21.6)과 DSV4-Pro(37.8)를 크게 앞선 것도 주목할 만합니다. 과학 연구 도메인 교사를 별도 훈련한 효과가 분자 생물학 벤치마크에서 가장 두드러지게 나타납니다.
반면 MLE-Bench-Lite(ML 엔지니어링 경쟁 태스크)에서는 GPT-5.5(72.7)와 28.8점 차이가 납니다. Kaggle 스타일의 실험 설계, 코드 실행, 제출 루프를 자율적으로 반복하는 역량은 아직 35B 모델에서 완전히 구현되지 않았습니다. BrowseComp(복잡한 웹 검색 추론)에서도 Kimi-K2.6, DSV4-Pro, GPT-5.5 모두에 뒤처집니다.
회고
저자들은 두 가지 약점을 솔직하게 인정합니다.
MLE-Bench-Lite 격차가 첫 번째입니다. 현재 버전은 ML 엔지니어링 자동화 태스크에서 GPT-5.5 대비 28.8점 차이를 보입니다. 저자들은 에이전트가 장기 실험 루프(설계, 코드 작성, 결과 분석, 재설계)를 자율적으로 이끄는 능력이 아직 부족하기 때문으로 분석합니다.
τ2-Bench 평가 불안정성이 두 번째입니다. τ2-Bench는 다중 에이전트 협업 태스크를 측정하는 벤치마크인데, 저자들은 이 벤치마크 자체의 평가 분산이 커 안정적 비교가 어렵다고 명시합니다. 메인 표에서 제외한 이유입니다.
12시간 장기 최적화 실험은 흥미로운 부산물입니다. 섹션 5.3에서 지구과학 분야 태스크를 12시간 최적화 루프로 돌렸을 때 추가 성능 향상이 확인됐습니다. 훈련 궤적의 지평선은 45K 토큰이었지만, 추론 시 더 긴 루프를 허용하면 성능 여지가 남아 있다는 시사점입니다.
3단계 훈련 레시피에서 각 구성 요소(KAG, SVA, 도메인 교사)의 개별 기여를 분리한 ablation이 충분히 제시되지 않은 점은 아쉽습니다. 어느 구성 요소가 핵심 성능 드라이버인지 더 명확한 실험이 후속 연구에서 다뤄지길 기대합니다.
정리
- Agents-A1은 35B MoE 모델로 9개 중 5개 에이전트 벤치마크에서 1T급 모델을 넘습니다. "파라미터가 아닌 지평선을 늘려라"는 명제를 실험으로 뒷받침합니다.
- KAG + 3단계 훈련(전-도메인 SFT, 도메인 교사 훈련, 다중-교사 OPD)이 이를 가능하게 한 인프라이며, SVA는 6개 이질적 도메인을 하나의 모델에 수렴시키는 핵심 기법입니다.
- ML 엔지니어링 자동화(MLE-Bench-Lite) 격차는 여전합니다. 자율 실험 루프 역량이 다음 과제입니다.