Do Transformers Need Three Projections - Systematic Study of QKV Variants

🏷️ 논문 트랜스포머 효율화

A. Kayyam, A. Madan Gopal, and M. A. Lewis, "Do Transformers Need Three Projections? Systematic Study of QKV Variants," arXiv:2606.04032, 2026.

저자

Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis 세 명이 함께 이 연구를 주도했습니다. BrainChip의 Kayyam과 Lewis는 신경망 효율화와 엣지 컴퓨팅 분야에서 수년간 협력해온 팀이며, CMU에서 머신러닝을 전공한 신진 연구자 Gopal이 대학원 연구로 합류했습니다.

이들이 이 연구에 합류한 동기는 명확합니다. 트랜스포머가 언어 모델링과 비전 작업에서 표준이 되면서 계산 비용과 메모리 소비가 급증했는데, 특히 KV 캐시가 긴 컨텍스트 생성 시 병목이 되자 근본적 구조 개선을 추구하게 되었습니다. 기존 연구들은 주의 메커니즘을 부분적으로만 간소화했기에, 세 가지 투영 모두가 실제로 필요한지를 묻는 체계적 평가가 필요했습니다.

배경

트랜스포머는 2017년 "Attention is All You Need" 논문 이후 거의 모든 최신 AI 모델의 핵심이 되었습니다. 그러나 이 성공은 계산 복잡도 증가를 초래했습니다. 특히 자주 주목받는 문제는 두 가지입니다.

첫째, 긴 컨텍스트에서 KV 캐시 크기가 선형으로 증가합니다. 32K 토큰 시퀀스에서 1.2B 모델의 KV 캐시는 80GB 이상이 되어 실시간 생성 추론을 불가능하게 합니다.

둘째, 트랜스포머 내부 표현이 정말 세 가지 투영(Q, K, V)이 모두 필요한지 의문이 남습니다. CNN은 공유 표현으로 효율적으로 작동하고, 상태공간 모델(State Space Models)은 통합된 표현을 사용합니다. 기존 연구들은 GQA(Grouped Query Attention)나 MQA(Multi-Query Attention)로 헤드 공유를 시도했지만, 투영 행렬 자체를 공유하는 경우를 체계적으로 평가하지 않았습니다.

어떻게 만들었나

이 연구는 세 가지 핵심 투영 공유 제약을 실험했습니다.

변형 1: Q-K=V (키-값 통합). 질의 투영은 분리하되 키와 값을 같은 투영으로 계산합니다. \[A = \text{Softmax}(QK^T) \cdot V, \quad \text{where } Q = XW_Q, K = V = XW_{KV}\]

이는 대칭 주의 행렬 \(KK^T\)를 생성하지 않아 비대칭 주의를 유지합니다.

변형 2: Q=K-V (질의-키 통합). 질의와 키를 같은 투영으로, 값은 분리합니다. \[A = \text{Softmax}(QQ^T) \cdot V\]

이 변형은 대칭 주의를 생성하므로, 대칭으로 인한 한계를 극복하기 위해 2D 위치 인코딩을 추가했습니다. 2D 위치 인코딩 \(P \in \mathbb{R}^{n \times n \times m}\)을 주의 행렬에 더하면 순서 감각을 복구합니다.

변형 3: Q=K=V (단일 투영). 가장 극단적인 간소화로, 세 투영을 모두 같은 행렬에서 계산합니다. \[A = \text{Softmax}(QQ^T) \cdot Q\]

계산 복잡도를 비교하면, Q-K=V와 Q=K=V는 투영 연산에서 각각 \(2nd^2\)\(nd^2\)로 KQV의 \(3nd^2\)보다 33% 이상 감소합니다. 반면 매개변수는 표에서 보듯 합계는 줄지만, 투영 행렬만 놓고 보면 \(n^2m\) 매개변수가 남습니다.

무엇으로 구성돼 있나

이 논문은 세 가지 도메인에서 실험을 수행했습니다.

합성 작업 (6가지): Reverse, Sort, Swap, Sub, Copy와 같은 순열 작업으로 학습 동력학을 추적합니다.

비전 작업 (4가지): MNIST, CIFAR-10, CIFAR-100, TinyImageNet, 그리고 이상 탐지(anomaly detection).

언어 모델링 (2가지): 300M과 1.2B 매개변수 모델을 SlimPajama 데이터셋 10B 토큰에서 학습합니다.

언어 모델은 다음 사양을 따릅니다: - 300M 모델: 20개 트랜스포머 층, 1024 임베딩 차원, 16 주의 헤드 - 1.2B 모델: 22개 층, 2048 임베딩 차원, 32 헤드

모든 변형이 동일한 하이퍼파라미터를 공유하므로 순수 구조 효과만 측정할 수 있습니다.

결과

언어 모델 품질 (주요 발견)

모델

훈련 손실

훈련 PPL

검증 손실

검증 PPL

속도 (토큰/초)

QKV (기준)

1.73

5.64

1.63

5.11

432k

Q-K=V

1.72

5.58

1.66

5.27

427k

Q=K-V

1.73

5.66

1.68

5.36

440k

Q=K=V

1.98

7.23

1.86

6.41

460k

300M 모델에서 Q-K=V는 QKV 기준선과 비슷한 품질을 유지하면서 퍼플렉시티 저하는 3.1%에 불과합니다. Q=K-V도 충분히 경쟁력 있고, Q=K=V는 너무 제약이 커서 25.4% 저하됩니다.

KV 캐시 메모리 (핵심 실제 효과)

32K 토큰 시퀀스에서: - QKV (기준): 2.62 GB per user → 1 GPU = 15명 동시 사용자 가능 - Q-K=V: 1.31 GB → 50% 감소, 30명 동시 사용자 - Q=K=V: 0.66 GB → 75% 감소 (품질 손실 큼)

헤드 공유와의 상호작용 (최대 효과)

투영 공유와 헤드 공유는 직교적이므로 조합 효과가 크습니다.

구성

Q-GQA-4

Q-MQA

캐시 감소

87.5%

96.9%

퍼플렉시티 저하

+2.48%

+4.16%

Q-K=V와 GQA-4를 합치면 87.5% 캐시 감소, MQA와 함께면 96.9% 감소로 온디바이스 추론을 현실화합니다.

1.2B 스케일 검증

1.2B 모델에서도 상대적 순위가 일치합니다. Q-K=V는 300M에서 3.1% 저하였지만, 1.2B에서는 2.48% 저하로 더 안정적입니다. 이는 더 큰 모델에서 Q-K=V가 더 강력함을 시사합니다.

회고

이 연구는 직관적으로 보면 당연해 보이는 결과를 얻습니다. 저자들이 스스로 인정하는 한계가 몇 가지 있습니다.

첫째, 정성적 설명의 제약입니다. Q-K=V가 작동하는 이유를 저자들은 "키와 값이 유사한 표현 공간을 점유할 수 있고, 주의가 저랭크 정권에서 작동한다"고 설명합니다. 그러나 이는 사후적 관찰이지, 왜 이렇게 되는지의 메커니즘은 미해결입니다.

둘째, Q=K-V의 실패 분석입니다. 대칭 주의로 인해 주의 방향성이 깨진다는 설명이 있지만, 2D 위치 인코딩 크기(\(m\))에 따른 상세한 ablation이 부족합니다. 정성 예시(attention map visualization)는 합성 작업에만 포함됩니다.

셋째, 외삽(extrapolation) 부재입니다. 실험은 최대 2048 토큰까지만 평가했으며, 4096 토큰 이상에서 성능 저하 추세가 계속되는지 명시하지 않습니다.

넷째, 퍼플렉시티와 하위작업 성능의 괴리입니다. Q-K=V는 훈련 중 QKV를 따라가지만, 다운스트림 작업(zero-shot benchmark)에서는 Q-K=V가 평균 0.41% 저하하는 반면 Q=K=V는 0.28% 저하합니다. 이는 퍼플렉시티가 항상 성능을 예측하지는 않음을 보여줍니다.

저자들이 "Limitations" 섹션에서 밝힌 바에 따르면, 아직 Q=V 투영(캐시 혜택 없음)과 장문맥 외삽에 대한 이론적 이해가 미완성입니다.

정리

  1. Q-K=V는 투영 공유의 명확한 우승자입니다. 50% 캐시 감소를 달성하면서 품질 손실은 3.1%에 그칩니다.

  2. 캐시 감소가 실제 효과를 낸다는 점을 데이터로 입증했습니다. 쿼리-키-값이 개별 투영을 공유해도 모델이 학습 도중엔 표현 공간을 효율적으로 재사용할 수 있습니다.

  3. 엣지 배포에 즉시 적용 가능합니다. Q-MQA 조합으로 96.9% 캐시 감소는 32K 컨텍스트를 1 GPU에서 여러 명의 사용자가 동시에 처리하는 것을 가능하게 합니다.