기울기 소실
기울기 소실
기울기 소실(Vanishing Gradient)은 역전파 중 그래디언트가 네트워크의 초기 층으로 전달될수록 점점 작아져 결국 거의 0에 가까워지고, 초기 층의 가중치가 제대로 업데이트되지 않는 문제이다.
핵심
- 시그모이드나 tanh 같이 기울기 최대값이 1 미만인 활성화 함수를 많이 쌓으면 발생한다
- 층이 깊어질수록 그래디언트가 지수적으로 감소한다
- ReLU, Leaky ReLU 등 기울기 소실이 없는 활성화 함수로 완화할 수 있다
- 배치 정규화(Batch Normalization), 잔차 연결(residual connection)도 효과적인 해법이다
- RNN에서는 긴 시퀀스에서 특히 심각하게 나타나며, LSTM이 이를 해결하기 위해 설계되었다