어텐션 메커니즘
어텐션 메커니즘
어텐션 메커니즘(Attention Mechanism)은 입력 시퀀스의 각 요소가 출력을 생성할 때 다른 모든 요소들과의 연관성을 쿼리-키-밸류(Query-Key-Value) 구조로 계산하여 가중 합을 구하는 메커니즘이다.
핵심
- 쿼리(Q), 키(K), 밸류(V)의 내적으로 연관성을 계산하고, 소프트맥스로 가중치를 구한 뒤 밸류를 가중 합한다
- RNN의 장거리 의존성 문제를 해결하고, 어떤 입력에 주목할지 모델이 학습한다
- 트랜스포머의 핵심 구성 요소이며, 셀프 어텐션(self-attention) 형태로 사용된다
- 인코더-디코더 어텐션에서는 디코더가 인코더 출력에 어텐션을 수행한다
- 어텐션 헤드를 병렬로 사용하는 멀티헤드 어텐션이 표준이다
수식
\[\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V\]