비전 트랜스포머
비전 트랜스포머
비전 트랜스포머(Vision Transformer, ViT)는 2020년 구글이 제안한 이미지 분류 모델로, 이미지를 고정 크기의 패치로 분할하고 각 패치를 토큰처럼 처리하여 트랜스포머 인코더로 분류 과제를 수행한다.
핵심
- 이미지를 \(16 \times 16\) 등 고정 크기 패치로 분할 → 평탄화 → 선형 투영 → 임베딩 시퀀스 생성
- BERT처럼 CLS 토큰을 앞에 추가하고, 그 인코딩된 임베딩으로 분류를 수행한다
- CNN보다 낮은 유도 편향을 가지지만, 충분한 데이터로 훈련하면 CNN을 능가한다
- 사전 훈련 데이터가 부족하면 CNN보다 성능이 낮으므로 대규모 데이터가 필요하다
- DiT(Diffusion Transformer) 등 이미지 생성에도 트랜스포머 백본이 확산되는 토대가 되었다
수식
이미지 → 패치 → 평탄화: \(x_p^{(i)} \in \mathbb{R}^{P^2 \cdot C}\)
투영: \(z_0 = [x_{cls}; x_p^1 E; \ldots; x_p^N E] + E_{pos}\)