혼합 전문가 모델

🏷️ 정보 LLM

혼합 전문가 모델

혼합 전문가 모델(Mixture of Experts, MoE)은 신경망의 피드포워드 층을 여러 개의 전문가(expert)로 나누고, 게이팅 메커니즘이 입력 토큰마다 상위 \(k\)개의 전문가만 활성화하여 전체 매개변수 수에 비해 실제 연산량을 줄이는 아키텍처이다.

핵심