ABot-Earth 0.5 - Generative 3D Earth Model

AMAP CV Lab, "ABot-Earth 0.5: Generative 3D Earth Model," arXiv:2606.09967, 2026.

저자

AMAP CV Lab은 알리바바 그룹의 지도 서비스 부문 AMAP 산하 컴퓨터비전 연구팀입니다. 이 논문에는 전통적인 단일 저자 체계 대신 역할별 기여자 목록이 적혀 있습니다.

Project Leader인 Ming Qian은 위성 영상 기반 3D 씬 생성 연구의 핵심 인물입니다. Wuhan University 시절 Sat2Density(ICCV 2023)로 위성-지상 뷰 간 밀도 필드 학습을 제안했고, AMAP 합류 이후에는 Sat3DGen(ICLR 2026)으로 단일 위성 영상에서 완전한 거리 수준의 3D 장면을 생성하는 연구를 발표했습니다. ABot-Earth는 이 위성-3D 연구 시리즈의 산업 규모 버전입니다. Hang Zhang과 Mingchao Sun이 함께 Project Leader를 맡았고, 알고리즘·데이터 파이프라인·엔지니어링·아트 등 30여 명이 역할별로 팀을 구성했습니다.

Google Earth의 3D 커버리지는 전 세계 국가의 76.9%에 불과하고 업데이트 주기는 수개월~수년입니다. 생성형 AI가 이 격차를 메울 수 있다는 가설을 지구 규모 배포 실험으로 검증하는 것이 목표였습니다.

배경

지구 규모 3D 환경 구축은 오랫동안 포토그래메트리(photogrammetry)의 영역이었습니다. Google Earth는 전용 항공 스캔 장비와 라이다를 동원해 3D 데이터를 수집합니다. 정밀하지만 두 가지 구조적 한계가 있습니다. 첫째, 스캔이 불가능한 지역은 아예 커버하지 못합니다. 아일랜드나 아프리카 다수 국가처럼 스캔 데이터가 없는 곳은 Google Earth에서 평면 이미지로 폴백됩니다. 둘째, 변경 사항이 렌더러에 반영되기까지 수개월에서 수년이 걸립니다.

기존 생성형 방법들(CityDreamer, GaussianCity, EarthCrafter)은 제한된 면적의 3D 장면을 생성하는 데 그쳤고, 실제 위성 영상에서 직접 동작하거나 지구 규모로 확장되는 시스템은 아직 없었습니다. ABot-Earth 0.5는 이 두 가지를 동시에 겨냥합니다.

데이터 파이프라인

ABot-Earth의 학습 데이터 기반은 자체 구축한 도시 규모 3DGS 재구성 엔진인 ABot-3DGS입니다.

위성 영상(다양한 고도와 오프-나디르 각도), 항공 영상(UAV 및 항공기), 도시 지상 영상에서 수집됩니다. ABot-3DGS는 이 이기종 데이터를 다음 네 단계로 처리합니다.

재구성: 도시 규모 장면을 독립적으로 최적화할 수 있는 블록으로 분할하고, 연속 LOD 계층과 포인트 클라우드 단순화로 모델 크기를 줄입니다. GPU 클러스터 병렬 처리로 대규모 분산 재구성을 지원합니다.

기하 및 텍스처 강화: 깊이 추정과 다중 뷰 기하 일관성으로 표면 정밀도를 높입니다. 전체 입력 해상도로 학습해 미세 텍스처를 보존하고, 관측이 부족한 영역은 생성 모델로 채웁니다.

장면 강건성: 의미론적 최적화로 조명·날씨·계절 변화 같은 외인성 효과를 장면 고유 외관과 분리합니다. 차량·보행자 같은 동적 요소는 자동으로 제거합니다.

크로스 뷰 융합: 극단적으로 다른 시점에서 촬영된 위성·항공·지상 데이터를 일관된 3D로 통합합니다. 항공 데이터는 넓은 지리 범위를, 도시 영상은 세밀한 디테일을 각각 기여합니다.

재구성된 3DGS 장면에서 200m × 200m 단위의 훈련 타일을 추출합니다. 슬라이딩 윈도우로 인접 타일 간 경계 맥락을 제공하고, 각 타일에 대해 나디르부터 사선까지 다양한 가상 카메라 배열로 멀티뷰 렌더링을 생성합니다. 품질 평가는 타일 단위(PSNR/SSIM/LPIPS, 기하 정밀도, VLM 품질 점수), 뷰 단위(누적 투명도, 텍스처 선명도), 데이터셋 단위(공간 다양성 균형, 의미론적 중복 제거) 3단계로 수행합니다.

방법

ABot-Earth 0.5는 도시 규모 3D 생성의 네 가지 근본 문제를 각각의 혁신으로 해결합니다.

표현 격차 해소: 기존 생성 모델은 메시(mesh) 자산을 타겟으로 설계되었습니다. 그러나 실외 환경의 나뭇잎이나 수면 같은 비다양체(non-manifold) 위상 구조는 메시로 정확히 표현하기 어렵습니다. ABot-Earth는 3DGS를 네이티브 표현으로 삼는 압축-생성 패러다임을 채택합니다. 수백만 개의 비정형 Gaussian primitive로 구성된 실세계 3DGS 장면에서 컴팩트한 잠재 공간을 학습하고, 생성 결과를 직접 이 포맷으로 출력합니다.

멀티-LOD 동시 생성: 지구 규모 탐색에서는 위성 뷰에서 거리 수준까지 연속적인 디테일 전환이 필수입니다. LOD를 후처리 단계로 다루는 대신, 디코더 내부에 계층적 3DGS 구조를 직접 합성하는 내재적 멀티-LOD 디코더를 설계했습니다. 줌 레벨 17~19의 고정밀 레이어는 추론 모델이 네이티브로 생성하고, 줌 레벨 14~16의 저해상도 레이어는 줌-17 데이터에서 Bhattacharyya 거리 기반 통계적 decimation으로 CPU에서 병렬 생성합니다.

원활한 슬라이딩 윈도우 추론: km 규모 면적을 통째로 생성하는 것은 계산적으로 불가능합니다. 타일 단위로 나눠 생성하면 경계에서 이음새(stitching artifact)가 생깁니다. ABot-Earth는 인접 타일의 중첩 영역에서 영향력을 섬세하게 혼합하는 원활한 슬라이딩 윈도우 추론 전략으로 이 문제를 해결합니다.

크로스 도메인 조건 적응: 조건 신호인 위성 영상은 해상도·취득 각도·대기 효과 면에서 전 세계적으로 편차가 큽니다. 또한 학습에 쓰인 3DGS 재구성이 주로 항공 영상 기반이므로, 실제 위성 영상과의 도메인 격차가 존재합니다. 이를 해소하기 위해 두 단계 전략을 적용합니다. 학습 시에는 3DGS 장면에서 위성 뷰 렌더링을 시뮬레이션해 일관된 조건 입력을 제공합니다. 추론 시에는 VLM 기반 하네스가 실제 위성 이미지의 특성에 동적으로 적응합니다.

배포: 지구 규모 시스템

알고리즘을 실용적인 서비스로 연결하는 두 단계 엔드투엔드 파이프라인이 이 논문의 또 다른 핵심입니다.

글로벌 3DGS 생산 파이프라인: A100 GPU 한 장이 4K 위성 이미지(약 1.6 km × 1.6 km 범위)를 약 25분에 처리합니다. 이는 학습 타일 200m × 200m 대비 64배 면적입니다. 전 세계 건축 지역(약 800,000 km²)을 312,500개 타일로 분할하면, 1,000-GPU 클러스터에서 동시 배치 300개 이상을 돌려 약 10일 만에 완료할 수 있습니다. Web Mercator 타일의 위도 왜곡은 타일 모자이크와 등방성 리샘플링으로 보정합니다.

EarthScape 렌더링 파이프라인: 생산 파이프라인 산출물은 약 320,000개 블록, 총 3.2조 개의 Gaussian primitive입니다. AMAP의 Yunjing 렌더링 엔진에 통합해 실시간 스트리밍을 구현합니다. 줌 레벨 14~19의 6단계 LOD 구조를 OGC 3D Tiles 규격으로 인덱싱하고, CDN 캐싱을 지원합니다.

결과

생성 품질: 실외 장면 생성 벤치마크에서 기존 최고 성능 대비 FID를 대폭 개선했습니다.

방법	FID (\(\downarrow\))	KID (\(\downarrow\))
CityDreamer	97.3	0.096
GaussianCity	86.9	0.090
EarthCrafter	69.5	0.061
ABot-Earth 0.5	16.1	0.006

다만 논문이 명시하듯, 각 방법이 평가에 사용한 GT 세트와 카메라 포즈가 서로 달라 직접 비교에는 한계가 있습니다. ABot-Earth의 GT는 실세계 3DGS 재구성 렌더링이라 모델링 난도가 더 높습니다.

시스템 수준 비교: Google Earth 및 상업용 플랫폼 Marble과의 비교입니다.

차원	Google Earth	Marble	ABot-Earth 0.5
패러다임	재구성	생성	생성
국가 커버리지	76.9%	N/A	91.5%
효율	수개월~수년	N/A	1 km² / 10분
시스템 개방성	API 제한	블랙박스	오픈 플랫폼

커버리지 비교에서 아프리카는 Google Earth 17.4% 대 ABot-Earth 56.5%로 차이가 특히 두드러집니다.

인간 평가에서는 ABot-Earth가 전반적 심미성에서 Google Earth를 앞섰습니다. 거시적 조명과 색상 조화가 뛰어나기 때문입니다. 반면 기하 정확도와 텍스처 충실도는 수십 년간 정밀화된 Google Earth가 여전히 앞섭니다. 논문은 이를 3D 생성 초기 모델과 전문가가 수작업으로 다듬은 결과물 간의 격차와 같다고 비유합니다.

랜드마크 통합 실험: COLMAP으로 크라우드소싱 이미지를 재구성한 에펠탑·콜로세움·미국 국회의사당·개선문을 생성 씬에 합성했습니다. 고정밀 재구성과 생성 환경이 자연스럽게 어우러져, 생성 기반 위에 재구성 자산을 올리는 하이브리드 접근의 가능성을 보여줍니다.

논문이 직접 언급하는 한계입니다. 현재 시스템은 1.6 km × 1.6 km 블록 내에서의 원활함에 집중하고, 블록 간 완전한 이음매 처리는 다음 버전 목표로 남겼습니다. 기하·텍스처 충실도에서는 Google Earth가 여전히 우위를 유지합니다.

논문이 밝힌 다음 단계는 하늘에서 지상으로의 확장입니다. 현재 항공 수준 3D에서 거리 뷰 수준의 디테일로 전환하는 작업을 진행 중이며, 야외 3D 장면 생성의 스케일링 법칙을 체계적으로 검증하는 것도 목표에 포함합니다.

위성 영상만을 조건 입력으로 삼아 도시 규모 3DGS 장면을 10분/km² 속도로 생성합니다. 네이티브 3DGS 생성 프레임워크, 내재적 멀티-LOD 디코더, 원활한 슬라이딩 윈도우 추론, VLM 기반 크로스도메인 적응이 핵심 혁신입니다.
FID 16.1로 기존 최고(EarthCrafter 69.5) 대비 4배 이상 향상했습니다. 국가 커버리지는 Google Earth 76.9% 대비 91.5%로 특히 아프리카·미개척 지역에서 차이가 큽니다.
1,000-GPU 클러스터로 10일 만에 전 세계 건축 지역 800,000 km²를 커버하고 3.2조 개 Gaussian primitive를 생성·배포하는 지구 규모 시스템입니다.