트랜스포머

🏷️ LLM

트랜스포머

트랜스포머(Transformer)는 2017년 "Attention is All You Need" 논문에서 제안된 신경망 아키텍처로, RNN 없이 셀프 어텐션만으로 시퀀스를 병렬 처리하여 기계 번역을 비롯한 모든 NLP 과제에서 혁명적 성과를 이끌었다.

핵심

인코더-디코더 구조로 구성되며, 각 층은 멀티헤드 어텐션과 피드포워드 네트워크로 이루어진다
병렬 처리가 가능해 RNN 대비 훈련 속도가 빠르다
인코더 전용(BERT), 디코더 전용(GPT), 인코더-디코더(T5) 변형이 파생되었다
텍스트뿐만 아니라 이미지(ViT), 음성, 비디오 등 다양한 모달리티에 적용된다
현대 LLM(GPT-4, Claude, Gemini 등)의 기반 아키텍처이다

수식

\[\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V\]