혼합 전문가 모델

🏷️ LLM

혼합 전문가 모델

혼합 전문가 모델(Mixture of Experts, MoE)은 신경망의 피드포워드 층을 여러 개의 전문가(expert)로 나누고, 게이팅 메커니즘이 입력 토큰마다 상위 \(k\)개의 전문가만 활성화하여 전체 매개변수 수에 비해 실제 연산량을 줄이는 아키텍처이다.

핵심

희소 활성화(sparse activation)로 연산량을 줄이면서 모델 용량은 늘린다
게이팅 네트워크가 각 토큰에 대해 어떤 전문가를 활성화할지 학습한다
Mixtral, DeepSeek, GPT-4 등 최신 LLM에 적용되어 있다고 알려진다
전문가 간 부하 균형(load balancing)이 중요한 훈련 과제이다
전문가 수를 늘려도 추론 비용이 선형 증가하지 않아 확장성이 높다