Crafter - A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

🏷️ 논문 멀티모달 에이전트

H. Zhao, S. Si, Z. Wang, Z. Wang, L. Chen, X. Li, Z. Liang, M. Sun, and M. Zhang, "Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs," arXiv:2605.30611, 2026.

저자

하오저 자오(UIUC)와 스정 스(칭화대)가 공동 1저자입니다. 시니어 저자는 UIUC의 민지아 장과 칭화대 TsinghuaNLP의 마오쑹 선(Maosong Sun)입니다. UIUC-칭화대-북경대 3기관 공동 연구입니다.

두 연구팀이 이 논문을 쓴 공통 동기는 실제 연구자가 피겨를 만드는 방식과 기존 자동화 시스템의 간극입니다. 연구자는 텍스트뿐 아니라 스케치, 부분 레이아웃, 참조 아이콘에서 출발하고, 출력물을 나중에 세부적으로 수정합니다. 기존 시스템은 이 두 가지를 모두 못 합니다.

배경

과학 논문 피겨 자동 생성 분야는 두 흐름으로 나뉩니다. 텍스트에서 TikZ 코드를 생성하는 코드 방식은 수정 가능하지만 아이콘이나 시각적 풍부함이 부족합니다. 에이전트와 이미지 생성 모델을 결합한 방식은 품질이 좋지만 래스터(픽셀) 이미지로 나와서 수정할 수 없습니다.

그리고 기존 시스템들은 모두 단일 피겨 유형 + 텍스트 입력만 다룹니다. PaperBanana는 방법론 다이어그램만, SridBench는 텍스트→이미지만 평가합니다. 현실의 연구자는 포스터도 만들고 인포그래픽도 만들며, 스케치에서 시작하기도 합니다.

이 논문의 제안은 생성 모델을 더 강하게 만드는 것이 아닙니다. 기존 생성 모델을 감싸는 **하네스(harness)**를 만드는 것입니다.

하네스 프레임워크

하네스는 실행기(생성 모델)를 교체하지 않고 그 주변에 계획-검증-수정 루프를 씌우는 오케스트레이션 계층입니다. 하네스 엔지니어링(Harness Engineering) 문서에서도 설명한 적이 있습니다. 형식적으로 하네스는 공유 스펙 \(S\)를 중심으로 돌아가는 4역할 루프입니다.

\[p_t = D(\text{input}, S_{t-1}), \quad a_t = E(p_t)\]

\[d_t = V(a_t, \text{input}, S_{t-1}), \quad S_t = R(d_t, S_{t-1})\]

\(D\) (Designer): 계획 생성
\(E\) (Executor): 이미지 생성 실행
\(V\) (Verifier): 진단 발행
\(R\) (Reviser): 스펙 업데이트

핵심은 \(R\)이 자유 텍스트가 아닌 **타입이 있는 편집(typed edit)**으로 \(S\)를 수정한다는 점입니다. "제목을 키워 주세요"라는 지시와 "여백을 줄여 주세요"라는 지시가 프롬프트에 쌓이면 모델이 모순을 조용히 흡수합니다. 대신 "title_size: large"와 "margin: narrow"라는 구조화된 연산으로 스펙을 갱신하면 내부 일관성이 유지됩니다.

CRAFTER와 CRAFTEDITOR

이 하네스를 두 시스템으로 인스턴스화합니다.

CRAFTER (피겨 생성)는 5개 에이전트가 협력합니다. 1. Intent Reasoner: 입력을 분석해 초기 스펙 \(S_0\) 구성 2. Plan Generator: \(K\)개의 후보 계획을 병렬 제안 (다양성 탐색) 3. Image-Gen Backend: 각 계획을 렌더링 4. Critic: 6가지 축(충실도, 가독성, 구체성, 미학 등)에 걸친 지시적 진단 발행 5. Convergence Judge: 수락/재시도/최선 복귀 결정

세 가지 메커니즘이 핵심입니다: - 다양성 기반 계획 탐색: \(K\)개의 후보를 병렬 렌더링해 최선 후보를 선발 후 정제 - 구조화 수정 계층: 자유 텍스트 대신 타입 편집으로 스펙 일관성 유지 - Verify-then-Refine 루프: 스칼라 점수가 아닌 결함 목록과 수정 제안을 발행하는 디렉티브 크리틱

CRAFTEDITOR (래스터→SVG 변환)는 동일한 하네스 패턴을 3단계로 적용합니다. - 추출: VLM이 유지/삭제 계획을 작성, 이미지 편집기가 실행, VLM이 검증 - 처리: 각 요소를 캡션화하고 벡터/래스터로 분류 - 구성: SVG 스켈레톤 생성 후 하이브리드 크리틱(VLM + 프로그래매틱 체커)이 반복 정제

CRAFTBENCH

기존 벤치마크는 모두 텍스트→학술 다이어그램 단일 조건만 다뤘습니다. 이 논문은 CRAFTBENCH를 새로 제시합니다.

279개 샘플, 3가지 피겨 유형(학술 피겨·포스터·인포그래픽), 4가지 입력 조건(텍스트→이미지, 마스크 완성, 핵심 요소 구성, 스케치 조건)입니다. arXiv 18개 분야 프리프린트, 어워드 등급 학회 포스터, 연구 블로그에서 수집했고, 레퍼런스 조건 샘플은 대학원생 3명이 만장일치로 검수했습니다.

평가는 VLM-as-Judge 방식입니다. Gemini 3.5 Flash가 모델 출력과 실제 피겨를 각각 독립적으로 채점하고 점수 차이로 승패를 판단합니다. 두 이미지를 나란히 보여주는 방식은 위치 편향이 있기 때문입니다.

결과

PaperBanana-Bench (텍스트→학술 피겨)

방법	충실도	구체성	가독성	미학	전체
GPT-Image-2	8.42	3.97	1.72	40.72	-
Nano Banana 2 (standalone)	15.07	11.99	26.88	47.95	-
PaperBanana (w/ NB2)	28.10	52.41	42.64	61.68	-
CRAFTER (w/ NB2)	38.18	53.42	47.77	64.21	50.34
CRAFTER vs standalone (\(\Delta\))	+23.11	+41.43	+20.89	+16.26	-

CRAFTBENCH (3가지 유형, 4가지 조건)

방법	T2I	마스크	스케치	핵심요소	전체
PaperBanana (w/ NB2)	33.73	18.70	36.70	60.00	31.70
CRAFTER (w/ NB2)	50.34	48.30	45.00	70.00	40.00
\(\Delta\) vs PaperBanana	+16.61	+29.60	+8.30	+10.00	+8.30

PaperBanana는 PaperBanana-Bench에서는 CRAFTER와 비슷한 백본 대비 향상을 보이지만, CRAFTBENCH의 스케치 조건에서는 백본보다 오히려 낮아집니다. 단일 피겨 유형에 최적화한 시스템이 조건이 다양해지면 어떻게 되는지를 보여주는 결과입니다.

어블레이션 (PaperBanana-Bench)

제거한 구성요소	전체 점수	\(\Delta\)
CRAFTER 전체	50.34	-
w/o 계획 탐색	41.78	-8.56
w/o 구조화 수정	41.44	-8.90
w/o 정제 루프	44.86	-5.48
w/o 디렉티브 크리틱	45.30	-5.04

4개 구성요소가 모두 독립적으로 기여합니다. 특히 구조화 수정 계층(타입 편집)을 제거했을 때 하락이 가장 크다는 점은 자유 텍스트 누적이 조용히 품질을 갉아먹는다는 설계 동기를 실험으로 확인한 결과입니다.

CRAFTEDITOR는 전체 평균 8.04로 AutoFigure-Edit(6.91), Edit-Banana(3.69)를 넘었습니다. 특히 텍스트와 화살표 구조 축에서 차이가 크며, 이는 정확한 좌표 추론과 반복 수정이 핵심인 부분입니다.

논문 자체적으로 명시한 한계입니다. CRAFTER는 모든 경우에서 균일하게 성공하지 않습니다. 부록 K, L에서 성공 및 실패 사례를 분석하고 있습니다.

평가 프로토콜이 VLM 기반이어서, VLM이 놓치는 세밀한 과학적 정확성(공식 표기, 수치 레이블 정확도)은 측정하지 못합니다. 실제 연구자가 사용하는 환경에서의 사용자 연구가 제한적이라는 점도 한계로 볼 수 있습니다.

과학 피겨 생성에는 더 강한 모델이 아니라 더 나은 하네스(오케스트레이션 계층)가 필요합니다. CRAFTER는 기존 생성 모델 위에 계획-검증-수정 루프를 씌워 3가지 피겨 유형과 4가지 입력 조건을 하나의 구조로 처리합니다.
자유 텍스트 수정 지시 누적은 조용히 모순을 만듭니다. 타입이 있는 편집(structured corrective layer)으로 스펙을 관리해야 반복 라운드에서 품질이 유지됩니다.
CRAFTEDITOR는 동일한 하네스를 래스터→SVG 변환에 적용해 편집 가능한 출력을 만듭니다.