Layer Normalization

🏷️ "#논문" "#제프리힌턴"

Layer Normalization (2016)

Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450.

배경

2016년, 배치 정규화가 CNN의 표준이었지만 RNN에서는 적용이 어려웠습니다. Ba, Kiros, Hinton은 배치 대신 레이어 차원에서 정규화하는 방법을 제안했습니다. 2017년 Transformer 등장과 함께 현대 LLM의 필수 구성요소가 되었습니다.

저자 소개

Jimmy Lei Ba는 토론토대 Hinton 연구실 박사과정으로 이후 토론토대 교수가 되었습니다. Jamie Ryan Kiros는 문장 임베딩(Skip-Thought Vectors)으로도 유명합니다. Geoffrey Hinton은 교신저자입니다.

요약

배치 정규화(Batch Normalization, BN)는 심층 신경망의 훈련을 크게 가속화했습니다. 하지만 RNN에서는 문제가 있습니다. RNN은 시계열 데이터를 처리할 때 배치 크기가 작고, 시점마다 통계가 달라집니다. 배치 통계에 의존하면 불안정해집니다.

이 논문은 배치 차원이 아닌 레이어 차원에서 정규화하자고 제안합니다. 각 샘플에서 현재 레이어의 모든 뉴런에 걸쳐 평균과 표준편차를 계산합니다. 이는 배치 크기와 무관하게 동일하게 작동하며, RNN에서도 시점마다 독립적으로 작동합니다.

결과는 간단하지만 강력합니다. RNN 훈련이 안정화되고, 최근 Transformer 아키텍처에서 필수 구성요소가 되었습니다.

논문 상세

배경: 배치 정규화의 문제

배치 정규화는 훈련 단계에서 배치의 평균과 분산을 사용하고, 테스트 단계에서 지수 이동 평균(exponential moving average)을 사용합니다. 이는 두 단계가 다른 계산을 수행한다는 의미입니다.

더 심각한 문제는 RNN입니다. RNN은: - 배치 크기가 작거나 가변적 - 시점마다 입력 분포가 달라짐 (시계열 데이터의 특성) - 배치 정규화의 통계가 불안정

따라서 RNN 훈련이 진동하거나 발산하기 쉽습니다.

방법론: 레이어 정규화

각 샘플 \(\mathbf{x} = (x_1, x_2, \ldots, x_H)\)에 대해, 레이어의 모든 활성화를 정규화합니다.

\[\mu_l = \frac{1}{H} \sum_{i=1}^{H} x_i\]

\[\sigma_l^2 = \frac{1}{H} \sum_{i=1}^{H} (x_i - \mu_l)^2\]

그 다음 정규화:

\[\mathbf{y} = \gamma \odot \frac{\mathbf{x} - \mu_l}{\sqrt{\sigma_l^2 + \epsilon}} + \beta\]

여기서 \(\gamma\)\(\beta\)는 학습 가능한 적응 매개변수(scale and shift)이고, \(\epsilon\)는 수치 안정성을 위한 작은 상수입니다.

핵심 차이: - 배치 정규화: 배치 차원(샘플들 간)에서 계산 - 레이어 정규화: 레이어 차원(특징들 간)에서 계산

성질

레이어 정규화는 다음 성질을 만족합니다:

  1. 훈련과 테스트가 동일: 배치에 의존하지 않으므로 테스트 시에도 정확히 같은 계산을 수행합니다
  2. 시계열 데이터에 강함: 배치 크기와 무관, 시점마다 독립적입니다
  3. 적응 매개변수: 각 뉴런은 자신의 적응 매개변수를 가지므로 특징에 맞춘 정규화가 가능합니다

결과

RNN 실험 (Penn Treebank 언어 모델링): - 배치 정규화: 불안정, 진동 발생 - 레이어 정규화: 안정적 수렴 - 수렴 속도: 레이어 정규화가 더 빠름

또한 레이어 정규화는 RNN의 은닉 상태 역학(hidden state dynamics)을 안정화하여 그래디언트 흐름을 개선합니다.

생각

잘한 점: - 개념이 간단하고 명확합니다. "배치 차원 대신 레이어 차원"이라는 직관적 아이디어입니다 - RNN뿐 아니라 모든 신경망에 적용 가능하며, 구현이 간단합니다 - 이론적 분석이 충분하고, 다양한 데이터셋에서 검증되었습니다 - 이후 Transformer 아키텍처의 핵심 구성요소가 되었으며, 실제 영향력이 매우 큽니다

한계: - 배치 정규화와 비교해 일부 결과에서는 배치 정규화가 약간 나을 수 있습니다 (CNN에서) - 논문이 상대적으로 짧고, 깊이 있는 이론적 분석이 제한적입니다 - 이후 연구에서 "왜" 레이어 정규화가 작동하는지에 대한 더 깊은 설명이 필요함을 보였습니다

의의: Deep Learning 역사에서 가장 영향력 있는 기법 중 하나입니다. 이 논문은 2016년 발표되었지만, 이후 Transformer(2017)가 등장하면서 레이어 정규화의 중요성이 재평가되었습니다.

현대 LLM은 거의 모두 레이어 정규화를 사용합니다. 또한 배치 크기와 무관하다는 성질 덕분에 분산 훈련이나 추론 효율성 측면에서 유리합니다. 최근 RMSNorm(Root Mean Square Normalization) 같은 간소화된 변형들도 나왔지만, 그 기반은 여전히 이 논문의 아이디어입니다.

후속 연구 링크

Layer Normalization은 독립적인 기여로, Hinton의 후속 논문에서 직접적으로 한계를 다루지는 않았습니다. 다만 이 기법은 이후 Transformer(2017)의 핵심 구성요소가 되면서 그 가치가 재평가되었습니다.