내부 공변량 이동
내부 공변량 이동
내부 공변량 이동(Internal Covariate Shift)은 신경망 학습 과정에서 이전 층의 매개변수가 업데이트됨에 따라 각 층의 입력 분포가 지속적으로 변화하는 현상으로, 학습을 불안정하게 만들고 속도를 늦춘다.
핵심
- 매 배치마다 각 층이 보는 입력 분포가 달라져 학습이 어려워진다
- 배치 정규화(Batch Normalization)가 이 문제를 해결하기 위해 제안되었다
- 배치 정규화는 각 미니배치의 활성화를 정규화하여 분포를 안정화한다
- 트랜스포머에서는 배치 크기에 독립적인 레이어 정규화(Layer Normalization)가 선호된다
- 정규화 위치도 서브레이어 뒤(post-norm)에서 앞(pre-norm)으로 이동하는 추세이다