Crafter - A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

🏷️ 논문 멀티모달 에이전트

H. Zhao, S. Si, Z. Wang, Z. Wang, L. Chen, X. Li, Z. Liang, M. Sun, and M. Zhang, "Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs," arXiv:2605.30611, 2026.

저자

Haozhe Zhao(UIUC)와 Shuzheng Si(칭화대)가 공동 1저자입니다. 시니어 저자는 UIUC의 Minjia Zhang과 칭화대 TsinghuaNLP의 마오쑹 선(Maosong Sun)입니다. UIUC-칭화대-북경대 3기관 공동 연구입니다.

두 연구팀이 이 논문을 쓴 공통 동기는 실제 연구자가 피겨를 만드는 방식과 기존 자동화 시스템의 간극입니다. 연구자는 텍스트뿐 아니라 스케치, 부분 레이아웃, 참조 아이콘에서 출발하고, 출력물을 나중에 세부적으로 수정합니다. 기존 시스템은 이 두 가지를 모두 못 합니다.

배경

과학 논문 피겨 자동 생성 분야는 두 흐름으로 나뉩니다. 텍스트에서 TikZ 코드를 생성하는 코드 방식은 수정 가능하지만 아이콘이나 시각적 풍부함이 부족합니다. 에이전트와 이미지 생성 모델을 결합한 방식은 품질이 좋지만 래스터(픽셀) 이미지로 나와서 수정할 수 없습니다.

그리고 기존 시스템들은 모두 단일 피겨 유형 + 텍스트 입력만 다룹니다. PaperBanana는 방법론 다이어그램만, SridBench는 텍스트→이미지만 평가합니다. 현실의 연구자는 포스터도 만들고 인포그래픽도 만들며, 스케치에서 시작하기도 합니다.

이 논문의 제안은 생성 모델을 더 강하게 만드는 것이 아닙니다. 기존 생성 모델을 감싸는 **하네스(harness)**를 만드는 것입니다.

하네스 프레임워크

하네스는 실행기(생성 모델)를 교체하지 않고 그 주변에 계획-검증-수정 루프를 씌우는 오케스트레이션 계층입니다. 하네스 엔지니어링(Harness Engineering) 문서에서도 설명한 적이 있습니다. 형식적으로 하네스는 공유 스펙 \(S\)를 중심으로 돌아가는 4역할 루프입니다.

\[p_t = D(\text{input}, S_{t-1}), \quad a_t = E(p_t)\]

\[d_t = V(a_t, \text{input}, S_{t-1}), \quad S_t = R(d_t, S_{t-1})\]

핵심은 \(R\)이 자유 텍스트가 아닌 **타입이 있는 편집(typed edit)**으로 \(S\)를 수정한다는 점입니다. "제목을 키워 주세요"라는 지시와 "여백을 줄여 주세요"라는 지시가 프롬프트에 쌓이면 모델이 모순을 조용히 흡수합니다. 대신 "title_size: large"와 "margin: narrow"라는 구조화된 연산으로 스펙을 갱신하면 내부 일관성이 유지됩니다.

crafter-architecture.png

CRAFTER와 CRAFTEDITOR

이 하네스를 두 시스템으로 인스턴스화합니다.

CRAFTER (피겨 생성)는 5개 에이전트가 협력합니다. 1. Intent Reasoner: 입력을 분석해 초기 스펙 \(S_0\) 구성 2. Plan Generator: \(K\)개의 후보 계획을 병렬 제안 (다양성 탐색) 3. Image-Gen Backend: 각 계획을 렌더링 4. Critic: 6가지 축(충실도, 가독성, 구체성, 미학 등)에 걸친 지시적 진단 발행 5. Convergence Judge: 수락/재시도/최선 복귀 결정

세 가지 메커니즘이 핵심입니다: - 다양성 기반 계획 탐색: \(K\)개의 후보를 병렬 렌더링해 최선 후보를 선발 후 정제 - 구조화 수정 계층: 자유 텍스트 대신 타입 편집으로 스펙 일관성 유지 - Verify-then-Refine 루프: 스칼라 점수가 아닌 결함 목록과 수정 제안을 발행하는 디렉티브 크리틱

CRAFTEDITOR (래스터→SVG 변환)는 동일한 하네스 패턴을 3단계로 적용합니다. - 추출: VLM이 유지/삭제 계획을 작성, 이미지 편집기가 실행, VLM이 검증 - 처리: 각 요소를 캡션화하고 벡터/래스터로 분류 - 구성: SVG 스켈레톤 생성 후 하이브리드 크리틱(VLM + 프로그래매틱 체커)이 반복 정제

CRAFTBENCH

기존 벤치마크는 모두 텍스트→학술 다이어그램 단일 조건만 다뤘습니다. 이 논문은 CRAFTBENCH를 새로 제시합니다.

279개 샘플, 3가지 피겨 유형(학술 피겨·포스터·인포그래픽), 4가지 입력 조건(텍스트→이미지, 마스크 완성, 핵심 요소 구성, 스케치 조건)입니다. arXiv 18개 분야 프리프린트, 어워드 등급 학회 포스터, 연구 블로그에서 수집했고, 레퍼런스 조건 샘플은 대학원생 3명이 만장일치로 검수했습니다.

평가는 VLM-as-Judge 방식입니다. Gemini 3.5 Flash가 모델 출력과 실제 피겨를 각각 독립적으로 채점하고 점수 차이로 승패를 판단합니다. 두 이미지를 나란히 보여주는 방식은 위치 편향이 있기 때문입니다.

결과

PaperBanana-Bench (텍스트→학술 피겨)

방법

충실도

구체성

가독성

미학

전체

GPT-Image-2

8.42

3.97

1.72

40.72

-

Nano Banana 2 (standalone)

15.07

11.99

26.88

47.95

-

PaperBanana (w/ NB2)

28.10

52.41

42.64

61.68

-

CRAFTER (w/ NB2)

38.18

53.42

47.77

64.21

50.34

CRAFTER vs standalone (\(\Delta\))

+23.11

+41.43

+20.89

+16.26

-

CRAFTBENCH (3가지 유형, 4가지 조건)

방법

T2I

마스크

스케치

핵심요소

전체

PaperBanana (w/ NB2)

33.73

18.70

36.70

60.00

31.70

CRAFTER (w/ NB2)

50.34

48.30

45.00

70.00

40.00

\(\Delta\) vs PaperBanana

+16.61

+29.60

+8.30

+10.00

+8.30

crafter-qualitative.png

PaperBanana는 PaperBanana-Bench에서는 CRAFTER와 비슷한 백본 대비 향상을 보이지만, CRAFTBENCH의 스케치 조건에서는 백본보다 오히려 낮아집니다. 단일 피겨 유형에 최적화한 시스템이 조건이 다양해지면 어떻게 되는지를 보여주는 결과입니다.

어블레이션 (PaperBanana-Bench)

제거한 구성요소

전체 점수

\(\Delta\)

CRAFTER 전체

50.34

-

w/o 계획 탐색

41.78

-8.56

w/o 구조화 수정

41.44

-8.90

w/o 정제 루프

44.86

-5.48

w/o 디렉티브 크리틱

45.30

-5.04

4개 구성요소가 모두 독립적으로 기여합니다. 특히 구조화 수정 계층(타입 편집)을 제거했을 때 하락이 가장 크다는 점은 자유 텍스트 누적이 조용히 품질을 갉아먹는다는 설계 동기를 실험으로 확인한 결과입니다.

CRAFTEDITOR는 전체 평균 8.04로 AutoFigure-Edit(6.91), Edit-Banana(3.69)를 넘었습니다. 특히 텍스트와 화살표 구조 축에서 차이가 크며, 이는 정확한 좌표 추론과 반복 수정이 핵심인 부분입니다.


논문 자체적으로 명시한 한계입니다. CRAFTER는 모든 경우에서 균일하게 성공하지 않습니다. 부록 K, L에서 성공 및 실패 사례를 분석하고 있습니다.

평가 프로토콜이 VLM 기반이어서, VLM이 놓치는 세밀한 과학적 정확성(공식 표기, 수치 레이블 정확도)은 측정하지 못합니다. 실제 연구자가 사용하는 환경에서의 사용자 연구가 제한적이라는 점도 한계로 볼 수 있습니다.