트랜스포머의 핵심 구성 요소인 Q, K, V 세 가지 투영을 공유하는 경우를 체계적으로 평가한 논문. 언어 모델링에서 Q-K=V 투영 공유는 KV 캐시를 50% 감소시키면서 퍼플렉시티는 3.1%만 저하된다는 결과를 제시합니다.
태그: 효율화
2개의 게시물
-
-
BrainChip 주임 연구과학자, 신경망 효율화 및 변압기 아키텍처 전문