Transformer
트랜스포머(Transformer)는 2017년 논문 Attention Is All You Need에서 제안된 신경망 아키텍처입니다. 그전까지 시퀀스 처리를 지배하던 RNN과 LSTM은 입력을 순서대로 한 토큰씩 처리해야 해서 병렬화가 어려웠습니다. 트랜스포머는 순환 구조를 버리고 셀프 어텐션(self-attention)만으로 시퀀스 안의 모든 토큰 관계를 한 번에 계산합니다.
핵심은 어텐션입니다. 각 토큰을 Query, Key, Value 벡터로 사상한 뒤, Query와 Key의 내적으로 토큰 간 연관도를 구하고 그 가중치로 Value를 합칩니다. 멀티헤드 어텐션은 이 과정을 여러 부분공간에서 병렬로 수행해 서로 다른 관계를 동시에 포착합니다. 순서 정보는 위치 인코딩으로 따로 주입합니다.
이 구조 덕분에 학습이 대규모로 병렬화되었고, 모델과 데이터를 키우면 성능이 따라 오르는 스케일링이 가능해졌습니다. 오늘날의 Gemini, ChatGPT, 그리고 거의 모든 대형 언어 모델이 트랜스포머를 토대로 합니다. 저자 중 한 명이 Noam Shazeer입니다.