Seedream 4.0 Toward Next-generation Multimodal Image Generation

🏷️ 논문 LLM 영상처리

바이트댄스가 내놓은 Seedream 4.0은 텍스트-이미지(T2I) 생성, 이미지 편집, 다중 이미지 합성을 단일 프레임워크 안에서 통합한 멀티모달 시스템입니다. 2025년 9월 기준, Artificial Analysis Arena의 T2I와 이미지 편집 리더보드에서 모두 1위를 차지했습니다.

1-seedream4.png

Seedream Team et al., "Seedream 4.0: Toward Next-generation Multimodal Image Generation," arXiv preprint arXiv:2509.20427, Sep. 2025. DOI: 10.48550/arXiv.2509.20427.

요약

항목

내용

아키텍처

Diffusion Transformer (DiT) + 고압축률 VAE

지원 해상도

1K ~ 4K 네이티브 해상도

학습 데이터

수십억 개의 텍스트-이미지 쌍

평가 기준

Artificial Analysis Arena ELO, DreamEval, MagicBench 4.0

학습 방법

사전학습 → CT(Continuing Training) → SFT → RLHF

추론 속도

2K 이미지 생성 시 1.4초 (LLM/VLM PE 모델 미사용 기준)

가속 기법

Adversarial Distillation, Distribution Matching, 4/8-bit 양자화, Speculative Decoding


1. 서론

Diffusion Transformer 기반의 이미지 생성 모델들은 비약적인 발전을 이뤘습니다. Stable Diffusion, FLUX, GPT-4o의 이미지 생성 기능, Gemini 2.5 Flash 등이 대표적입니다. 한편으로는 더 높은 해상도, 더 정밀한 제어, 더 강력한 멀티모달 역량에 대한 요구가 커졌습니다. 기존 모델들은 확장성 측면에서 한계에 부딪히고 있습니다.

이 논문은 바이트댄스의 Seed 팀이 개발한 Seedream 4.0을 소개합니다. 핵심 기여는 다음과 같습니다:

  1. 효율적이고 확장 가능한 아키텍처: DiT 백본과 고압축률 VAE를 결합해 학습 및 추론 FLOPs를 대폭 감소시켰습니다. Seedream 3.0 대비 10배 이상의 가속을 달성하면서도 성능은 오히려 향상됐습니다.

  2. 강력한 멀티모달 생성 능력: T2I 생성과 이미지 편집 작업을 단일 DiT 프레임워크 내에서 공동 학습합니다. 단일 또는 다중 이미지 입출력을 모두 지원합니다.

  3. 전문 창작 시나리오 지원: 차트, 수식, 디자인 자료 등 지식 기반 콘텐츠 생성에서 강점을 보입니다. 예술적 이미지 생성을 넘어 실용적인 산업 응용으로의 확장을 목표로 합니다.

  4. 초고속 추론: 적극적인 최적화를 통해 2K 또는 4K 해상도에서도 초고속 이미지 생성 및 편집이 가능합니다.


2. 데이터와 모델 학습

2.1 사전학습 데이터 전략

Seedream 3.0에서는 시각적 형태와 의미적 분포를 동시에 최적화하는 이중 축(dual-axis) 협업 샘플링 프레임워크를 도입했습니다. 그러나 이 방식에는 두 가지 한계가 있었습니다:

이 문제를 해결하기 위해 Seedream 4.0은 지식 관련 데이터에 특화된 파이프라인을 새롭게 설계했습니다.

자연 이미지 처리: PDF 문서(교과서, 연구 논문, 소설 등)에서 고품질 이미지를 수집합니다. 저품질 분류기로 흐릿하거나 복잡한 배경의 이미지를 필터링하고, 난이도 분류기(쉬움/중간/어려움)로 레이블링합니다. 극도로 어려운 이미지는 사전학습 중 다운샘플링합니다.

합성 데이터 생성: OCR 출력과 LaTeX 소스 코드를 활용해 구조(레이아웃, 기호 밀도)와 해상도가 다양한 수식 이미지를 합성합니다.

추가적인 개선 사항으로는 텍스트 품질 분류기 도입, 시맨틱 임베딩과 저수준 시각 임베딩을 결합한 중복 제거 파이프라인, 더 세밀한 시각적 설명을 위한 캡셔닝 모델 개선, 강화된 크로스모달 임베딩 적용 등이 있습니다.

2.2 학습 전략과 인프라

다단계 학습: 첫 번째 단계에서는 평균 \(512^2\) 해상도(다양한 종횡비)로 DiT를 학습합니다. 두 번째 단계에서는 \(1024^2\)부터 \(4096^2\)까지의 고해상도로 미세조정합니다.

학습 인프라 최적화:


3. 사후학습(Post-training)

사후학습 단계에서는 T2I 생성, 단일 이미지 편집, 다중 이미지 참조 및 출력 등 멀티모달 역량을 강화하기 위한 집중적인 학습을 수행합니다.

3.1 다단계 사후학습 파이프라인

학습은 네 단계로 진행됩니다:

  1. Continuing Training (CT): 모델의 기초 지식과 멀티태스크 숙련도를 확장합니다. 특히 이미지 편집에 대한 지시 따르기(instruction following) 능력을 향상시킵니다.

  2. Supervised Fine-Tuning (SFT): 특정 예술적 품질을 학습시킵니다. 참조 이미지와 편집된 이미지 간의 일관성을 크게 개선합니다.

  3. RLHF (Reinforcement Learning from Human Feedback): 모델 출력을 인간의 미묘한 선호도에 맞춥니다.

  4. Prompt Engineering (PE) 모듈: 다양한 사용자 입력에서 모델의 잠재력을 최대한 끌어냅니다.

3.2 편집 데이터 구축

CT와 SFT 단계에 사용되는 대량의 편집 데이터를 구축합니다. 각 데이터 샘플은 참조 이미지, 목표 이미지, 편집 지시문으로 구성됩니다. 두 이미지 모두에 대해 세 가지 수준의 상세도로 캡션을 생성하며, 이는 학습 중 데이터 증강 역할을 합니다.

3.3 VLM 기반 PE 모델

Seed1.5-VL을 기반으로 end-to-end Vision Language Model(VLM)을 PE 모델로 학습합니다. 이 모델은 사용자 입력(텍스트 프롬프트, 단일 또는 다중 이미지)을 처리하고 DiT 모델에 전달할 출력을 생성합니다.

PE 모델의 주요 기능:

지연 시간과 성능의 균형을 맞추기 위해 AdaCoT에서 영감을 받아 태스크 복잡도에 따라 사고 예산(thinking budget)을 동적으로 조정합니다.


4. 모델 가속

4.1 효율적인 고품질 합성

가속 프레임워크는 Hyper-SD, RayFlow, APT, ADM의 원리를 통합합니다. 핵심 아이디어는 모든 샘플이 가우시안 prior로 가는 공유 경로가 아닌, 최적화된 적응형 궤적(adaptive trajectory)을 따르도록 하는 것입니다.

이를 위해 적대적 매칭(adversarial matching) 프레임워크를 사용합니다:

  1. Adversarial Distillation Post-training (ADP): 하이브리드 판별자를 사용해 안정적인 초기화를 보장합니다.

  2. Adversarial Distribution Matching (ADM): 학습 가능한 diffusion 기반 판별자로 미세조정하여 복잡한 분포를 더 정밀하게 매칭합니다.

이 통합 파이프라인은 NFE(Number of Function Evaluations)를 대폭 줄이면서도 미적 품질, 텍스트-이미지 정렬, 구조적 충실도 면에서 수십 스텝이 필요한 베이스라인과 동등하거나 더 나은 결과를 달성합니다.

4.2 양자화

추론 성능을 더욱 향상시키기 위해 양자화와 희소성을 결합한 하드웨어 인식 프레임워크를 적용합니다.

4.3 PE를 위한 Speculative Decoding

Hyper-Bagel의 연구를 기반으로 확률적 토큰 샘플링에서 발생하는 고유한 불확실성을 해결합니다. 선행 feature 시퀀스와 한 타임스텝 앞선 토큰 시퀀스 모두를 조건으로 feature 예측을 수행하여 결정적인 타겟을 제공합니다. 추론 중 효율적인 재사용을 위한 KV 캐시 손실 함수와 draft 모델 개선을 위한 보조 cross-entropy 손실을 추가로 통합합니다.


5. 성능 평가

5.1 공개 리더보드 결과

2025년 9월 18일 기준, Artificial Analysis Arena에서 Seedream 4.0은 T2I와 이미지 편집 모두에서 1위를 기록했습니다. 비교 대상 모델로는 GPT-Image-1, Gemini-2.5 Flash, Qwen-Image, FLUX-Kontext 등이 있습니다.

5.2 자체 벤치마크: MagicBench 4.0

세 가지 주요 태스크 카테고리를 다루는 종합 멀티모달 벤치마크를 구축했습니다:

태스크

프롬프트 수

언어

T2I 생성

325개

중국어/영어

단일 이미지 편집

300개

중국어/영어

다중 이미지 편집

100개

중국어/영어

T2I 평가 결과: Seedream 4.0은 프롬프트 정렬, 구조적 안정성, 시각적 미학 외에도 밀집 텍스트 렌더링과 콘텐츠 이해(인컨텍스트 추론, 전문 도메인 지식)에서 이전 버전 대비 큰 개선을 보였습니다. 특히 시각적 미학에서 경쟁 모델들을 크게 앞섰습니다.

단일 이미지 편집 평가 결과:

다중 이미지 편집 평가 결과: Seedream 4.0은 지시 정렬, 일관성, 구조 모든 차원에서 최고 수준의 성능을 보였습니다. GSB 지표에서 다른 두 모델을 거의 20% 앞섰습니다. 참조 이미지 수가 증가해도(10개 이상) 안정적이고 일관된 구조를 유지하는 것이 특징입니다.

5.3 자동 평가: DreamEval

1,600개의 프롬프트와 128개의 하위 태스크를 포함하는 종합 멀티모달 벤치마크입니다. 기본, 고급, 고차원 이해/추론 역량을 별도로 평가하는 계층화된 난이도 수준을 포함합니다.

주요 관찰 사항:

이는 멀티모달 이해와 추론 능력에서의 개선 필요성을 시사합니다.


6. 창의적 활용 사례

Seedream 4.0이 지원하는 다양한 활용 사례를 살펴봅니다.

6.1 정밀 편집 (Precise Editing)

프롬프트 기반 입력만으로 고품질 이미지 편집이 가능합니다. 추가, 삭제, 수정, 대체 같은 기본 작업 외에도 배경 교체 시 전경과 다른 요소의 자연스러운 통합, 사진 수준의 사실적인 인물 보정 등을 수행합니다.

6.2 유연한 참조 생성 (Flexible Reference)

참조 기반 생성에서는 무엇을 보존할지에 대한 모호한 정의로 인해 보존과 창의성 사이의 트레이드오프가 더 어렵습니다. Seedream 4.0은 다양한 시점에서의 2D/3D 도메인 간 변환, 단일 참조 이미지로부터의 파생 디자인(인형, 의류, 밈 등), ID에 민감한 시나리오(다양한 스타일의 초상화, 영화용 캐릭터 등)를 지원합니다.

6.3 시각 신호 제어 생성 (Visual Signal Controllable Generation)

Canny 엣지, 스케치, 인페인팅 마스크, 뎁스 맵 같은 시각 신호는 제어 가능한 생성의 핵심 요소입니다. 기존에는 ControlNet 같은 여러 특화 모델이 필요했지만, Seedream 4.0은 단일 모델로 이러한 기능을 네이티브하게 통합합니다.

6.4 인컨텍스트 추론 생성 (In-Context Reasoning Generation)

기존 이미지 생성이 주어진 지시를 엄격히 따르는 출력을 목표로 했다면, 추론 기반 생성은 암묵적인 문맥 단서를 추출하고 그럴듯한 결과를 추론해야 합니다. Seedream 4.0은 실세계의 물리적/시간적 제약 해석, 3차원 공간 상상, 퍼즐 풀기, 십자말풀이, 만화 연속 생성 등의 인컨텍스트 이해 태스크에서 추론 역량을 보여줍니다.

6.5 다중 이미지 참조/출력 생성

다중 이미지 참조: 기존의 가상 피팅이나 이미지 콜라주를 넘어 여러 캐릭터나 객체의 유연한 합성, 추상적 스타일 전송(종이접기, 바로크 미학 등)을 지원합니다. 10개 이상의 입력 이미지를 처리하면서도 높은 충실도를 유지합니다.

다중 이미지 출력: 단일 이미지 생성은 일관된 다중 이미지 출력이 필요한 창작 시나리오에서 불충분합니다. Seedream 4.0은 전역 계획과 인컨텍스트 일관성을 활용해 캐릭터 일관성과 스타일 정렬을 유지하는 이미지 시퀀스를 생성합니다. 스토리보딩, 만화 제작, IP 기반 제품 디자인, 이모지 세트 생성 등에 유용합니다.

6.6 고급 텍스트 렌더링

단순한 시연을 넘어 실용적 응용을 지원합니다:

6.7 적응형 종횡비와 4K 생성

기존 모델은 해상도 지정이 필요하고, 부적절한 종횡비 선택은 구도와 레이아웃 저하로 이어집니다. Seedream 4.0은 의미적 요구사항이나 참조 객체의 형태에 따라 캔버스를 자동 조정하는 적응형 종횡비 메커니즘을 도입합니다(사용자 지정 크기도 지원). 또한 상업적 응용에 적합한 4K 해상도까지 지원합니다.


7. 결론

Seedream 4.0은 효율적이고 확장 가능한 DiT와 고압축률 VAE를 결합해 이전 버전 대비 10배 이상의 가속을 달성하면서 모든 측면에서 우수한 성능을 제공합니다. T2I와 이미지 편집 작업의 공동 사후학습을 통해 다양한 입출력을 지원하는 강력한 멀티모달 생성 역량을 갖추었습니다. 정밀 이미지 편집, 참조 기반 생성, 다중 이미지 합성 및 출력 등 창의적 탐색의 넓은 잠재력을 보여줍니다.

물론 한계점도 존재합니다:

  1. Hard 레벨 태스크에서의 성능 저하: DreamEval 평가에서 높은 난이도의 멀티모달 이해와 추론이 필요한 태스크에서 성능이 떨어집니다. 논문에서도 이를 인정하며 관련 데이터로 모델을 스케일링해야 한다고 언급합니다.

  2. 변동성: "best-of-4" 결과는 우수하지만 평균 점수는 GPT-4o보다 약간 낮습니다. 사용자가 좋은 결과를 얻으려면 샘플링이 필요할 수 있습니다.

  3. 제한된 비교 범위: 주로 GPT-Image-1, Gemini-2.5와 비교하며, 다른 최신 모델들과의 광범위한 비교는 부족합니다.

  4. 상업적 접근성 제한: Volcano Engine, Doubao, Jimeng 플랫폼에서만 접근 가능하며, 모델 가중치나 코드는 공개되지 않았습니다.

Seedream 4.0은 효율성과 다양한 기능의 균형을 맞추려는 시도로서 의미 있는 연구입니다. 다만 공개된 정보만으로는 실제 성능을 독립적으로 검증하기 어렵다는 점을 유의해야 합니다.


참조