Learning representations by back-propagating errors
왜 다층 신경망을 훈련할 수 없다고 생각했을까요? 오차가 역으로 흘러가며 각 계층의 가중치를 조정한다면요? Rumelhart, Hinton, Williams는 이 단순한 아이디어로 신경망이 문제에 맞춘 내부 표현을 자동으로 학습할 수 있다는 것을 증명했습니다. 이후 30년간 딥러닝의 기초가 된 방법입니다.
[1] Rumelhart, D. E., Hinton, G. E., and Williams, R. J., "Learning representations by back-propagating errors," Nature, vol. 323, pp. 533–536, 1986.
배경
1986년, 신경망 연구는 1969년 Minsky와 Papert의 "Perceptrons" 이후 "AI 겨울"을 겪고 있었습니다. 단층 퍼셉트론의 한계(XOR 문제)가 알려졌지만, 다층 네트워크를 훈련하는 방법은 없었습니다. Rumelhart, Hinton, Williams는 Nature에 이 논문을 발표하며 다층 신경망 훈련의 길을 열었습니다.
저자 소개
David Rumelhart는 UCSD 인지과학자로 병렬분산처리(PDP) 그룹의 중심 인물이었습니다. Geoffrey Hinton은 당시 카네기멜론대에서 신경망 연구를 이끌던 영국 출신 컴퓨터과학자였습니다. Ronald Williams는 노스이스턴대 연구자로 REINFORCE 알고리즘으로도 유명합니다.
요약
기술 스펙: 순방향 계산(forward pass)으로 출력을 구한 후, 오차를 역방향으로 전파하면서 각 가중치의 그래디언트를 계산합니다. 확률적 경사 하강법(SGD)으로 가중치를 업데이트합니다. 활성화 함수는 미분 가능한 시그모이드를 사용합니다.
핵심 혁신: 은닉층이 임의로 깊어져도 체인 룰(chain rule)로 모든 그래디언트를 계산할 수 있다는 증명입니다. 네트워크가 자동으로 "숨겨진 특징"을 배웁니다.
논문 상세
배경
1970년대 퍼셉트론 비판의 핵심은 다층 네트워크를 훈련할 방법이 없다는 것이었습니다. 특히 은닉층의 가중치를 어떻게 조정할지 몰랐습니다. 이를 "신용 할당 문제(credit assignment problem)"라고 했습니다.
방법론
오류(E)를 모든 가중치에 대해 편미분합니다. 체인 룰을 역방향으로 적용하면 깊은 계층도 계산 가능합니다.
구체적으로: 1. 입력에서 출력까지 순방향으로 활성화를 계산합니다 2. 출력 계층에서부터 역방향으로 각 뉴런의 오차(delta)를 계산합니다 3. 오차와 활성화값의 곱으로 가중치 그래디언트를 구합니다 4. 경사 하강법으로 가중치를 조정합니다
논문은 이 과정이 국소 계산(local computation)만 필요하다는 점을 강조했습니다. 각 연결은 자신이 연결한 두 뉴런의 활동만 봐도 자신의 가중치를 어떻게 조정할지 알 수 있습니다.
결과
작은 네트워크들이 XOR, 숫자 인식(Nettalk), 로봇 제어 같은 작업을 학습했습니다. 은닉층이 1-2개 있어도 충분했습니다. 특히 흥미로운 점은 은닉 뉴런들이 입력의 특정 패턴(예: 음소의 특징)을 자동으로 발견했다는 것입니다. 사람이 설계하지 않았는데도 의미 있는 표현이 생겨났습니다.
생각
잘한 점
우아하고 실용적입니다. 이론은 간단하면서도 효과가 큽니다. 체인 룰이라는 수학적 도구로 깊은 네트워크도 훈련할 수 있다는 증명이 명확합니다. 실험도 다양합니다.
특히 표현 학습의 가능성을 시사한 부분이 후대에 엄청난 영향을 미쳤습니다. 네트워크가 자동으로 유용한 특징을 배운다는 발견은 당시로서는 경험적 증거로서 충분했습니다.
한계
실험 규모가 작습니다. 은닉층이 보통 1-2개입니다. 더 깊으면 어떻게 되는지 탐색하지 않았습니다. (사실 깊은 네트워크는 학습이 어렵다는 '소멸 그래디언트' 문제가 있었지만 당시에는 이를 체계적으로 다루지 않았습니다.)
통계적 검증도 약합니다. 몇 가지 예시만 보여주고, 평균 성능이나 신뢰도는 보고하지 않았습니다. 하이퍼파라미터(학습률, 초기화)의 민감성도 언급하지 않았습니다.
논문에서 "내부 표현이 의미 있다"고 주장하지만, 정량적 분석은 없습니다. 은닉 뉴런 활동을 시각화하거나 통계적으로 검증한 증거가 부족합니다.
의의
우리가 쓰는 모든 신경망은 이 알고리즘을 기반으로 합니다. 지금도 PyTorch, TensorFlow가 하는 핵심이 바로 역전파입니다. 50개 이상의 계층을 훈련할 수 있는 현대 딥러닝은 여기서 시작되었습니다.
뉴런이 자동으로 표현을 배운다는 아이디어도 여기서 나왔습니다. 특성 공학(feature engineering)이 불필요하다는 생각도요. 이것은 현대 머신러닝을 정의하는 철학입니다.
단점은 이후 90년대에 더 드러났습니다. 깊은 네트워크에서 그래디언트가 소멸한다는 문제입니다. 하지만 그것은 역전파 자체의 문제가 아니라, 활성화 함수와 가중치 초기화의 문제였습니다. 2010년대 ReLU와 배치 정규화가 나오면서 이 문제는 해결되었습니다.
후속 연구 링크
이 논문의 한계는 Hinton의 이후 연구에서 다루어졌습니다: - 깊은 네트워크 훈련 어려움 → A Fast Learning Algorithm for Deep Belief Nets: 층별 사전훈련으로 해결했습니다 - 소멸 그래디언트 문제 → Rectified Linear Units Improve Restricted Boltzmann Machines: ReLU 활성화 함수로 완화했습니다 - 생물학적 비타당성 → The Forward-Forward Algorithm - Some Preliminary Investigations: 역전파 없이 순전파만으로 학습하는 알고리즘을 제안했습니다