Crafter - A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
H. Zhao, S. Si, Z. Wang, Z. Wang, L. Chen, X. Li, Z. Liang, M. Sun, and M. Zhang, "Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs," arXiv:2605.30611, 2026.
저자
Haozhe Zhao(UIUC)와 Shuzheng Si(칭화대)가 공동 1저자입니다. 시니어 저자는 UIUC의 Minjia Zhang과 칭화대 TsinghuaNLP의 마오쑹 선(Maosong Sun)입니다. UIUC-칭화대-북경대 3기관 공동 연구입니다.
두 연구팀이 이 논문을 쓴 공통 동기는 실제 연구자가 피겨를 만드는 방식과 기존 자동화 시스템의 간극입니다. 연구자는 텍스트뿐 아니라 스케치, 부분 레이아웃, 참조 아이콘에서 출발하고, 출력물을 나중에 세부적으로 수정합니다. 기존 시스템은 이 두 가지를 모두 못 합니다.
배경
과학 논문 피겨 자동 생성 분야는 두 흐름으로 나뉩니다. 텍스트에서 TikZ 코드를 생성하는 코드 방식은 수정 가능하지만 아이콘이나 시각적 풍부함이 부족합니다. 에이전트와 이미지 생성 모델을 결합한 방식은 품질이 좋지만 래스터(픽셀) 이미지로 나와서 수정할 수 없습니다.
그리고 기존 시스템들은 모두 단일 피겨 유형 + 텍스트 입력만 다룹니다. PaperBanana는 방법론 다이어그램만, SridBench는 텍스트→이미지만 평가합니다. 현실의 연구자는 포스터도 만들고 인포그래픽도 만들며, 스케치에서 시작하기도 합니다.
이 논문의 제안은 생성 모델을 더 강하게 만드는 것이 아닙니다. 기존 생성 모델을 감싸는 **하네스(harness)**를 만드는 것입니다.
하네스 프레임워크
하네스는 실행기(생성 모델)를 교체하지 않고 그 주변에 계획-검증-수정 루프를 씌우는 오케스트레이션 계층입니다. 하네스 엔지니어링(Harness Engineering) 문서에서도 설명한 적이 있습니다. 형식적으로 하네스는 공유 스펙 \(S\)를 중심으로 돌아가는 4역할 루프입니다.
\[p_t = D(\text{input}, S_{t-1}), \quad a_t = E(p_t)\]
\[d_t = V(a_t, \text{input}, S_{t-1}), \quad S_t = R(d_t, S_{t-1})\]
- \(D\) (Designer): 계획 생성
- \(E\) (Executor): 이미지 생성 실행
- \(V\) (Verifier): 진단 발행
- \(R\) (Reviser): 스펙 업데이트
핵심은 \(R\)이 자유 텍스트가 아닌 **타입이 있는 편집(typed edit)**으로 \(S\)를 수정한다는 점입니다. "제목을 키워 주세요"라는 지시와 "여백을 줄여 주세요"라는 지시가 프롬프트에 쌓이면 모델이 모순을 조용히 흡수합니다. 대신 "title_size: large"와 "margin: narrow"라는 구조화된 연산으로 스펙을 갱신하면 내부 일관성이 유지됩니다.
CRAFTER와 CRAFTEDITOR
이 하네스를 두 시스템으로 인스턴스화합니다.
CRAFTER (피겨 생성)는 5개 에이전트가 협력합니다. 1. Intent Reasoner: 입력을 분석해 초기 스펙 \(S_0\) 구성 2. Plan Generator: \(K\)개의 후보 계획을 병렬 제안 (다양성 탐색) 3. Image-Gen Backend: 각 계획을 렌더링 4. Critic: 6가지 축(충실도, 가독성, 구체성, 미학 등)에 걸친 지시적 진단 발행 5. Convergence Judge: 수락/재시도/최선 복귀 결정
세 가지 메커니즘이 핵심입니다: - 다양성 기반 계획 탐색: \(K\)개의 후보를 병렬 렌더링해 최선 후보를 선발 후 정제 - 구조화 수정 계층: 자유 텍스트 대신 타입 편집으로 스펙 일관성 유지 - Verify-then-Refine 루프: 스칼라 점수가 아닌 결함 목록과 수정 제안을 발행하는 디렉티브 크리틱
CRAFTEDITOR (래스터→SVG 변환)는 동일한 하네스 패턴을 3단계로 적용합니다. - 추출: VLM이 유지/삭제 계획을 작성, 이미지 편집기가 실행, VLM이 검증 - 처리: 각 요소를 캡션화하고 벡터/래스터로 분류 - 구성: SVG 스켈레톤 생성 후 하이브리드 크리틱(VLM + 프로그래매틱 체커)이 반복 정제
CRAFTBENCH
기존 벤치마크는 모두 텍스트→학술 다이어그램 단일 조건만 다뤘습니다. 이 논문은 CRAFTBENCH를 새로 제시합니다.
279개 샘플, 3가지 피겨 유형(학술 피겨·포스터·인포그래픽), 4가지 입력 조건(텍스트→이미지, 마스크 완성, 핵심 요소 구성, 스케치 조건)입니다. arXiv 18개 분야 프리프린트, 어워드 등급 학회 포스터, 연구 블로그에서 수집했고, 레퍼런스 조건 샘플은 대학원생 3명이 만장일치로 검수했습니다.
평가는 VLM-as-Judge 방식입니다. Gemini 3.5 Flash가 모델 출력과 실제 피겨를 각각 독립적으로 채점하고 점수 차이로 승패를 판단합니다. 두 이미지를 나란히 보여주는 방식은 위치 편향이 있기 때문입니다.
결과
PaperBanana-Bench (텍스트→학술 피겨)
방법 |
충실도 |
구체성 |
가독성 |
미학 |
전체 |
|---|---|---|---|---|---|
GPT-Image-2 |
8.42 |
3.97 |
1.72 |
40.72 |
- |
Nano Banana 2 (standalone) |
15.07 |
11.99 |
26.88 |
47.95 |
- |
PaperBanana (w/ NB2) |
28.10 |
52.41 |
42.64 |
61.68 |
- |
CRAFTER (w/ NB2) |
38.18 |
53.42 |
47.77 |
64.21 |
50.34 |
CRAFTER vs standalone (\(\Delta\)) |
+23.11 |
+41.43 |
+20.89 |
+16.26 |
- |
CRAFTBENCH (3가지 유형, 4가지 조건)
방법 |
T2I |
마스크 |
스케치 |
핵심요소 |
전체 |
|---|---|---|---|---|---|
PaperBanana (w/ NB2) |
33.73 |
18.70 |
36.70 |
60.00 |
31.70 |
CRAFTER (w/ NB2) |
50.34 |
48.30 |
45.00 |
70.00 |
40.00 |
\(\Delta\) vs PaperBanana |
+16.61 |
+29.60 |
+8.30 |
+10.00 |
+8.30 |
PaperBanana는 PaperBanana-Bench에서는 CRAFTER와 비슷한 백본 대비 향상을 보이지만, CRAFTBENCH의 스케치 조건에서는 백본보다 오히려 낮아집니다. 단일 피겨 유형에 최적화한 시스템이 조건이 다양해지면 어떻게 되는지를 보여주는 결과입니다.
어블레이션 (PaperBanana-Bench)
제거한 구성요소 |
전체 점수 |
\(\Delta\) |
|---|---|---|
CRAFTER 전체 |
50.34 |
- |
w/o 계획 탐색 |
41.78 |
-8.56 |
w/o 구조화 수정 |
41.44 |
-8.90 |
w/o 정제 루프 |
44.86 |
-5.48 |
w/o 디렉티브 크리틱 |
45.30 |
-5.04 |
4개 구성요소가 모두 독립적으로 기여합니다. 특히 구조화 수정 계층(타입 편집)을 제거했을 때 하락이 가장 크다는 점은 자유 텍스트 누적이 조용히 품질을 갉아먹는다는 설계 동기를 실험으로 확인한 결과입니다.
CRAFTEDITOR는 전체 평균 8.04로 AutoFigure-Edit(6.91), Edit-Banana(3.69)를 넘었습니다. 특히 텍스트와 화살표 구조 축에서 차이가 크며, 이는 정확한 좌표 추론과 반복 수정이 핵심인 부분입니다.
논문 자체적으로 명시한 한계입니다. CRAFTER는 모든 경우에서 균일하게 성공하지 않습니다. 부록 K, L에서 성공 및 실패 사례를 분석하고 있습니다.
평가 프로토콜이 VLM 기반이어서, VLM이 놓치는 세밀한 과학적 정확성(공식 표기, 수치 레이블 정확도)은 측정하지 못합니다. 실제 연구자가 사용하는 환경에서의 사용자 연구가 제한적이라는 점도 한계로 볼 수 있습니다.
- 과학 피겨 생성에는 더 강한 모델이 아니라 더 나은 하네스(오케스트레이션 계층)가 필요합니다. CRAFTER는 기존 생성 모델 위에 계획-검증-수정 루프를 씌워 3가지 피겨 유형과 4가지 입력 조건을 하나의 구조로 처리합니다.
- 자유 텍스트 수정 지시 누적은 조용히 모순을 만듭니다. 타입이 있는 편집(structured corrective layer)으로 스펙을 관리해야 반복 라운드에서 품질이 유지됩니다.
- CRAFTEDITOR는 동일한 하네스를 래스터→SVG 변환에 적용해 편집 가능한 출력을 만듭니다.