Hunyuan3D Studio End-to-End AI Pipeline for Game-Ready 3D Asset Generation

🏷️ 논문 LLM

고품질 3D 에셋을 만드는 일은 정말 어렵고 시간이 많이 드는 작업입니다. 굳이 설명하지 않아도 모두 아는 사실이죠. 모델링, UV 매핑, 텍스처링, 리깅까지 - 하나의 캐릭터나 아이템을 완성하기 위해서는 여러 전문 소프트웨어를 오가며 복잡한 파이프라인을 거칩니다.

B. Lei et al., "Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation," arXiv preprint arXiv:2509.12815, 2025.

텐센트의 Hunyuan3D 팀이 발표한 Hunyuan3D Studio는 단일 이미지나 텍스트 설명만으로 게임에서 바로 사용할 수 있는 3D 에셋을 자동으로 생성하는 AI 파이프라인입니다.

사이트에 접속하면 누구나 체험해볼 수 있습니다.

프롬프트로 생성할 수도 있고 기존 사진으로 만들 수도 있네요. 3D 모델링을 잘 몰라도 제법 고품질이라는 것을 알 수 있었습니다. 중국의 기술 발전이 새삼 무섭네요.

Hun_1.png

요약

이미지 생성 관련

3D 생성 관련

아키텍처

데이터셋 정보

P3-SAM 관련

텍스처 관련

애니메이션 관련

UV 관련

훈련 세부사항

하드웨어 및 훈련 시간

훈련 설정

특이한 점들

  1. Qwen 기반: 텐센트가 자체 개발한 Qwen 모델들을 적극 활용
  2. 내부 데이터: 상당 부분이 텐센트 내부에서 구매하거나 제작한 데이터
  3. 스케일: 수백만 개 단위의 대규모 데이터셋 활용
  4. 멀티모달: 텍스트, 이미지, 3D 데이터를 모두 통합한 훈련

논문 상세

Hunyuan3D Studio란?

Hunyuan3D Studio는 창의적 아이디어에서 시작해 게임 엔진에서 바로 사용할 수 있는 3D 에셋까지, 전체 제작 과정을 하나로 통합한 AI 기반 플랫폼입니다. 기존의 노동집약적이고 전문화된 워크플로우를 혁신적으로 자동화하고 간소화했습니다.

핵심 특징

완전 자동화된 파이프라인: 개념 이미지나 텍스트 설명을 입력하면, 최적화된 지오메트리와 고품질 PBR 텍스처, 애니메이션까지 포함된 완성된 3D 모델이 자동으로 생성됩니다.

게임 엔진 호환성: Unity나 Unreal Engine 등 현대 게임 엔진의 까다로운 기술 요구사항을 모두 충족하는 에셋을 생성합니다.

모듈형 아키텍처: 각 단계가 독립적으로 작동하면서도 유기적으로 연결되어, 필요에 따라 특정 부분만 수정하거나 조정할 수 있습니다.

7단계 AI 파이프라인 심층 분석

1. 컨트롤 가능한 이미지 생성 (Controllable Image Generation)

첫 번째 단계는 다양한 입력을 처리하여 3D 생성에 적합한 이미지를 만드는 것입니다.

이미지 스타일화: 치비, 스팀펑크, 복셀, 미래형, 손그림, 로우폴리 등 다양한 게임 아트 스타일로 이미지를 변환할 수 있습니다. Qwen-ImageEdit 모델을 기반으로 LoRA 적응을 통해 구현되었습니다.

포즈 표준화: 임의의 포즈를 가진 캐릭터를 A-포즈로 자동 변환합니다. FLUX.1-dev DiT 모델을 활용하여 캐릭터의 일관성을 유지하면서 배경과 소품을 제거하고 표준 포즈로 변환합니다.

2. 고해상도 지오메트리 생성 (High-Fidelity Geometry Generation)

이 단계에서는 Hunyuan3D 2.1과 2.5 프레임워크를 기반으로 정밀한 3D 형상을 생성합니다.

핵심 구성요소:

조건부 생성: 단일 이미지뿐만 아니라 3D 바운딩 박스와 멀티뷰 이미지를 추가 조건으로 사용하여 더 정확하고 의도에 맞는 3D 모델을 생성합니다.

3. 파트 레벨 3D 생성 (Part-level 3D Generation)

복잡한 3D 모델을 의미 있는 구성 요소로 자동 분해하는 단계입니다.

P3-SAM (Native 3D Part Segmentation): 기존 2D SAM의 영향을 배제하고 순수 3D 파트 정보만을 활용하여 정확한 파트 분할을 수행합니다. 370만 개의 고품질 파트 마스크 데이터셋으로 훈련되었습니다.

X-Part: 바운딩 박스를 프롬프트로 사용하여 파트 위치와 스케일을 제어하며, 고해상도 시맨틱 피처를 활용해 의미 있는 파트 분해를 수행합니다.

4. 폴리곤 생성 (PolyGen)

기존의 그래픽스 기반 리토폴로지 방법을 버리고, 자기회귀 모델을 사용해 면(face)을 하나씩 생성하는 혁신적인 접근법입니다.

주요 혁신:

5. 시맨틱 UV 언래핑 (Semantic UV Unwrapping)

SeamGPT라는 새로운 프레임워크를 통해 아티스트 스타일의 절단 심을 자동 생성합니다.

혁신적 접근: - 자기회귀 심 예측: 표면 절단을 순차 예측 문제로 공식화 - 구조적 포인트 샘플링: 꼭짓점과 모서리에서만 포인트를 샘플링하여 정확한 정렬 보장 - 길이 제어: 절단 세분화 수준을 조절하여 다양한 요구사항에 대응

6. 텍스처 합성 및 편집 (Texture Synthesis and Editing)

물리 기반 렌더링(PBR) 워크플로우를 지원하는 고품질 텍스처를 생성합니다.

멀티모달 텍스처 편집: 텍스트와 이미지 가이드를 모두 지원하여 다양한 스타일의 재질 편집이 가능합니다.

4K 머티리얼 맵 생성: 3D VAE 프레임워크를 적용하여 베이스 컬러, 메탈릭, 러프니스, 노멀 맵을 포함한 고해상도 PBR 텍스처를 생성합니다.

7. 애니메이션 모듈 (Animation Module)

생성된 3D 모델에 자동으로 리깅과 스키닝을 적용하여 애니메이션 준비를 완료합니다.

이중 브랜치 구조:

기술적 성과와 의미

성능 우수성

실험 결과 Hunyuan3D Studio는 기존 방법들을 크게 앞서는 성능을 보여줍니다:

산업적 영향

개발 시간 단축: 기존에 며칠 또는 몇 주가 걸리던 3D 에셋 제작을 몇 시간 또는 몇 분으로 단축

진입 장벽 낮추기: 복잡한 3D 모델링 소프트웨어에 대한 전문 지식 없이도 고품질 3D 에셋 제작 가능

창의성 향상: 기술적 제약에서 벗어나 창의적 아이디어에 더 집중할 수 있는 환경 제공

한계와 향후 과제

논문에서 언급된 한계점들도 있습니다:

  1. 복잡한 구조: 매우 복잡한 기하학적 구조나 특수한 토폴로지에서는 여전히 수동 수정이 필요할 수 있음
  2. 스타일 제약: 사전 정의된 아트 스타일에 제한되며, 완전히 새로운 스타일 생성에는 한계
  3. 컴퓨팅 자원: 고품질 결과를 위해서는 상당한 컴퓨팅 파워가 필요

결론

인디 게임 개발자나 소규모 스튜디오에게는 게임 체인저가 될 수 있을지도 모르겠습니다. 실제 게임 개발에 사용하기 좋을만큼 고품질인지 아직은 판단하기 애매하네요.