비전 트랜스포머

🏷️ LLM 트랜스포머 컴퓨터비전

비전 트랜스포머(Vision Transformer, ViT)는 2020년 구글이 제안한 이미지 분류 모델로, 이미지를 고정 크기의 패치로 분할하고 각 패치를 토큰처럼 처리하여 트랜스포머 인코더로 분류 과제를 수행합니다.

핵심

이미지를 \(16 \times 16\) 등 고정 크기 패치로 분할 → 평탄화 → 선형 투영 → 임베딩 시퀀스 생성
BERT처럼 CLS 토큰을 앞에 추가하고, 그 인코딩된 임베딩으로 분류를 수행합니다
CNN보다 낮은 유도 편향을 가지지만, 충분한 데이터로 훈련하면 CNN을 능가합니다
사전 훈련 데이터가 부족하면 CNN보다 성능이 낮으므로 대규모 데이터가 필요합니다
DiT(Diffusion Transformer) 등 이미지 생성에도 트랜스포머 백본이 확산되는 토대가 되었습니다

수식

이미지 → 패치 → 평탄화: \(x_p^{(i)} \in \mathbb{R}^{P^2 \cdot C}\)

투영: \(z_0 = [x_{cls}; x_p^1 E; \ldots; x_p^N E] + E_{pos}\)