DINOv3

🏷️ 논문 영상처리

라벨링 없이 특징을 학습하는 컴퓨터 비전 백본 모델이 나왔습니다. 나오자마자 유명세를 탄 논문입니다. Meta AI가 발표한 DINOv3는 자기지도학습(Self-Supervised Learning) 모델입니다. 라벨 없이 순수하게 이미지만으로 학습했으며 객체 탐지부터 깊이 추정까지 거의 모든 컴퓨터 비전 태스크에서 최고 수준의 성능을 달성했습니다.

O. Siméoni et al., "DINOv3," arXiv preprint arXiv:2508.10104, 2025.

DINO_1.png

요약

1. 모델 아키텍처

주요 모델 사양

구성요소

DINOv2 (기존)

DINOv3 (신규)

백본

ViT-giant

ViT-7B

파라미터 수

1.1B

6.7B

블록 수

40

40

패치 크기

14×14

16×16

위치 임베딩

학습 가능

RoPE

레지스터 토큰

4개

4개

임베딩 차원

1,536

4,096

FFN 숨은 차원

4,096

8,192

어텐션 헤드

24개

32개

헤드 차원

64

128

손실 함수 헤드 설정

2. 훈련 데이터

데이터 구성 (총 16.89억 이미지)

  1. 계층적 클러스터링 데이터: DINOv2 임베딩 기반 5단계 클러스터링

    • 레벨별 클러스터 수: 200M → 8M → 800k → 100k → 25k
  2. 검색 기반 큐레이션: 시드 데이터셋과 유사한 이미지 검색

  3. 검증된 데이터셋: ImageNet1k, ImageNet22k, Mapillary

데이터 샘플링 전략

3. 훈련 설정

하드웨어 및 분산 설정

훈련 스케줄

주요 하이퍼파라미터

4. Gram Anchoring 세부사항

Gram 손실 계산

\[L_Gram = ||X_S · X_S^T - X_G · X_G^T||_F^2\]

고해상도 Gram Anchoring

5. 모델 증류

멀티스튜던트 증류 파이프라인

효율적 증류 전략

6. 평가 설정

조밀 특징 평가

글로벌 특징 평가

복합 시스템 평가

7. 주요 성능 지표

조밀 특징 성능

글로벌 특징 성능

실제 시스템 성능

8. 텍스트 정렬 설정

LiT 기반 훈련

데이터 큐레이션

9. 특수 기법들

RoPE 박스 지터링

레지스터 토큰

분산 Koleo 정규화

10. 재현성 정보

코드 및 모델 공개

하드웨어 요구사항

논문 상세

1. 70억 파라미터 모델

DINOv3의 가장 눈에 띄는 특징은 규모입니다. 이전 버전인 DINOv2의 11억 파라미터에서 무려 70억 파라미터로 대폭 확장했습니다. 하지만 단순히 모델을 키운 것이 아닙니다.

DINOv2 대비 아키텍처 개선:

2. 데이터 큐레이션

DINOv3는 Instagram의 170억 이미지 풀에서 시작하여 세심하게 큐레이션된 16.89억 이미지로 훈련되었습니다:

3가지 데이터 구성 전략:

스마트한 배치 전략: 각 배치의 10%는 ImageNet1k만으로, 나머지 90%는 모든 데이터 소스를 혼합하여 구성

3. Gram Anchoring

DINOv3의 가장 혁신적인 기술적 성과는 Gram Anchoring입니다. 이는 대규모 모델의 훈련이 진행될수록 패치 레벨 특징이 일관성을 잃는 문제를 해결합니다.

문제 인식:

Gram Anchoring 솔루션:

L_Gram = ||X_S · X_S^T - X_G · X_G^T||_F^2

여기서 X_S는 학생 네트워크의 패치 특징, X_G는 초기 단계 교사 네트워크의 패치 특징입니다.

핵심 아이디어: 특징 자체가 아닌 패치 간 유사도 구조(Gram 행렬)를 보존하여 지역 일관성을 유지

훈련 전략

1. 일정한 하이퍼파라미터 스케줄링

기존의 코사인 스케줄링을 버리고 일정한 학습률, 가중치 감쇠, 교사 EMA 모멘텀을 사용:

2. 멀티스케일 고해상도 적응

256픽셀로 사전 훈련 후 512-768픽셀로 고해상도 적응:

3. 혁신적인 멀티스튜던트 증류

하나의 70억 파라미터 교사 모델에서 여러 크기의 학생 모델을 동시에 증류:

압도적인 성능 결과

조밀 특징의 우월성

세그멘테이션 (선형 프로빙):

깊이 추정:

3D 대응점 매칭:

글로벌 특징의 강건성

ImageNet 분류 및 OOD 성능:

실제 시스템에서의 SOTA 달성:

실용적 가치와 영향

1. Frozen Backbone의 힘

DINOv3의 가장 인상적인 특징 중 하나는 백본을 동결한 상태에서도 최고 수준의 성능을 달성한다는 점입니다:

2. 도메인 적응성

자연 이미지뿐만 아니라 다양한 도메인에서 뛰어난 성능:

3. 과학적 응용 가능성

라벨이 없는 관측 데이터가 풍부한 과학 분야에서의 활용:

기술적 혁신의 깊이

1. 손실 함수 설계

\[L_Pre = L_DINO + L_iBOT + 0.1 * L_DKoleo\] \[L_Ref = w_D * L_DINO + L_iBOT + w_DK * L_DKoleo + w_Gram * L_Gram\]

2. 고해상도 Gram Anchoring

단순한 Gram Anchoring을 넘어 고해상도 특징을 활용:

3. 텍스트 정렬 확장

LiT(Locked-image Text Tuning) 패러다임을 활용한 제로샷 멀티모달 능력:

한계와 미래 과제

현재의 한계점

  1. 계산 자원 요구량: 70억 파라미터 모델의 훈련과 추론 비용
  2. 데이터 의존성: 고품질 큐레이션된 데이터에 대한 의존
  3. 특정 도메인 성능: 일부 전문 도메인에서는 여전히 특화 모델이 우세

미래 연구 방향

  1. 더 효율적인 아키텍처: 성능을 유지하면서 계산 효율성을 높이는 방법
  2. 자동 데이터 큐레이션: 인간 개입 없이 고품질 훈련 데이터 자동 선별
  3. 멀티모달 확장: 비디오, 오디오 등 다른 모달리티와의 통합
  4. 온라인 학습: 지속적으로 새로운 데이터로 학습하는 평생학습 시스템