미니 배치 경사 하강법
미니 배치 경사 하강법
미니 배치 경사 하강법(Mini-batch Gradient Descent)은 전체 훈련 데이터를 작은 미니 배치(mini-batch)로 나누어, 배치마다 그래디언트를 계산하고 가중치를 업데이트하는 방법이다. 배치 경사 하강법과 확률적 경사 하강법(SGD)의 절충안이다.
핵심
- 배치 크기(batch size)는 일반적으로 32, 64, 128, 256 등 2의 제곱수를 사용한다
- 전체 배치보다 빠르고 SGD보다 안정적인 그래디언트 추정을 제공한다
- GPU 병렬 처리에 최적화되어 있다
- 확률적 잡음이 지역 최솟값에서 벗어나는 데 도움이 될 수 있다
- 현대 딥러닝에서 사실상 표준 최적화 방식이다
수식
\[\theta \leftarrow \theta - \alpha \cdot \frac{1}{|B|}\sum_{i \in B} \nabla_\theta \mathcal{L}(\theta; x^{(i)}, y^{(i)})\]