비전 트랜스포머

🏷️ 정보 LLM

비전 트랜스포머

비전 트랜스포머(Vision Transformer, ViT)는 2020년 구글이 제안한 이미지 분류 모델로, 이미지를 고정 크기의 패치로 분할하고 각 패치를 토큰처럼 처리하여 트랜스포머 인코더로 분류 과제를 수행한다.

핵심

수식

이미지 → 패치 → 평탄화: \(x_p^{(i)} \in \mathbb{R}^{P^2 \cdot C}\)

투영: \(z_0 = [x_{cls}; x_p^1 E; \ldots; x_p^N E] + E_{pos}\)