트랜스포머
트랜스포머
트랜스포머(Transformer)는 2017년 "Attention is All You Need" 논문에서 제안된 신경망 아키텍처로, RNN 없이 셀프 어텐션만으로 시퀀스를 병렬 처리하여 기계 번역을 비롯한 모든 NLP 과제에서 혁명적 성과를 이끌었다.
핵심
- 인코더-디코더 구조로 구성되며, 각 층은 멀티헤드 어텐션과 피드포워드 네트워크로 이루어진다
- 병렬 처리가 가능해 RNN 대비 훈련 속도가 빠르다
- 인코더 전용(BERT), 디코더 전용(GPT), 인코더-디코더(T5) 변형이 파생되었다
- 텍스트뿐만 아니라 이미지(ViT), 음성, 비디오 등 다양한 모달리티에 적용된다
- 현대 LLM(GPT-4, Claude, Gemini 등)의 기반 아키텍처이다
수식
\[\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V\]