CoDA Agentic Systems for Collaborative Data Visualization

🏷️ 논문 데이터분석 LLM

개인적으로 데이터 분석 분야에서 시각화가 제일 어렵습니다. 시각화 작업은 현업 데이터 과학자도 많은 시간을 소모하는 작업이라고 하네요. LLM은 자연어 쿼리를 통한 자동화가 가능합니다. 가능은 하지만 아무래도 시각화가 사람이 이해하기 쉽고 만족할 만한 결과를 내야 의미가 있어서 한계가 명확했죠. 기존 시스템은 특히 복잡한 데이터셋 처리와 반복적 개선을 어려워했습니다. 이 논문은 전문화된 다중 에이전트 협업을 통해 이 문제를 해결하는 CoDA(Collaborative Data-visualization Agents) 시스템을 제안합니다.

Z. Chen, J. Chen, S. Ö. Arık, M. Sra, T. Pfister and J. Yoon, "CoDA: Agentic Systems for Collaborative Data Visualization", arXiv:2510.03194, 2025.

1-coda1.png

요약

아키텍처: 다중 에이전트 시스템 (Query Analyzer, Data Processor, VizMapping Agent, Search Agent, Design Explorer, Code Generator, Debug Agent, Visual Evaluator)

사용 모델: Gemini-2.5-Pro (백본 LLM)

데이터셋:

평가 매트릭:

핵심 성과:

훈련 방법: Fine-tuning 없이 전문화된 프롬프트 엔지니어링을 통한 다중 에이전트 협업 구현

논문 상세

Introduction

데이터 분석가들은 전체 작업 시간의 2/3 이상을 낮은 수준의 데이터 준비와 시각화 작업에 소비합니다. LLM의 등장으로 자연어를 통한 시각화 자동화가 가능해졌지만, 기존 접근법들은 세 가지 핵심 과제에 어려움을 겪고 있습니다:

  1. 대규모 데이터셋 처리
  2. 다양한 전문 지식(언어학, 통계, 디자인) 조율
  3. 반복적 피드백을 통한 출력 개선

기존 시스템들의 한계는 다음과 같습니다:

Method

협업 다중 에이전트 패러다임

CoDA는 시각화를 단일 단계 프로세스가 아닌 협업 문제 해결 과정으로 재정의합니다. 각 에이전트는 전문 영역(메타데이터 추출, 코드 디버깅 등)에 집중하며, 공유 상태를 통해 동적으로 적응합니다.

핵심 설계 원칙:

CoDA 아키텍처

1-coda2.png

CoDA는 자연어 쿼리와 데이터 파일을 입력받아 정제된 시각화를 생성하는 8개의 전문화된 에이전트로 구성됩니다:

1. Query Analyzer

2. Data Processor

3. VizMapping Agent

4. Search Agent (도구)

5. Design Explorer

6. Code Generator

7. Debug Agent

8. Visual Evaluator

에이전트들은 공유 메모리 버퍼를 통해 구조화된 메시지를 교환하며, 피드백 루프가 자기 성찰을 유발합니다. 품질 점수가 임계값 미만이면 이슈가 상위 에이전트로 라우팅됩니다 (예: 낮은 미학 → Design Explorer로 복귀).

Experiments

벤치마크

베이스라인

주요 결과

MatplotBench:

Qwen Code Interpreter:

DA-Code:

효율성 분석

CoDA는 MatplotAgent 대비 17.6% 적은 총 토큰(50,219 vs. 60,969)과 3.9% 적은 LLM 호출을 사용하면서도 훨씬 높은 정확도를 달성했습니다.

Ablation Study

반복 횟수 영향:

글로벌 TODO 리스트:

Search Agent:

Conclusion

CoDA는 자연어 쿼리를 전문화된 작업 분해(이해, 계획, 생성, 자기 성찰)를 통해 처리하며, MatplotBench와 Qwen 벤치마크에서 베이스라인 대비 최대 41.5%의 정확도 향상을 달성했습니다. 메타데이터 중심 전처리와 자기 성찰 개선을 통해 입력 토큰 제한을 극복하고, 복잡한 다중 파일 데이터를 강건하게 관리합니다. 주요 한계는 다중 턴 에이전트 통신으로 인한 계산 오버헤드이며, 향후 에이전트 증류 또는 멀티모달 입력 적응이 연구 과제로 제시됩니다.