The Helmholtz Machine

인간의 시각 피질은 어떻게 작동할까요? 하향식 신호(예측)와 상향식 신호(감지)를 어떻게 통합할까요? Dayan, Hinton, Neal, Zemel은 두 방향 경로를 모두 갖춘 확률적 네트워크를 제시했습니다. 이것이 나중에 VAE의 이론적 선조가 되었습니다.

[1] P. Dayan, G. E. Hinton, R. M. Neal, and R. S. Zemel, "The Helmholtz Machine," Neural Computation, vol. 7, no. 5, pp. 889–904, 1995.

배경

1995년, 19세기 물리학자 헤르만 폰 헬름홀츠의 "무의식적 추론" 이론에서 영감을 받았습니다. 뇌가 감각 입력을 해석할 때 내부 모델을 사용한다는 이론을 신경망으로 구현한 것입니다. 변분 추론을 신경망에 최초로 적용한 사례 중 하나로, 18년 뒤 VAE의 이론적 토대가 되었습니다.

저자 소개

Peter Dayan은 MIT 뇌인지과학과에서 연구하고 있었으며 계산신경과학의 선구자입니다. Geoffrey Hinton은 토론토대에서 생성 모델 연구를 심화하고 있었습니다. Radford Neal은 토론토대 통계학과 교수로 베이지안 방법론의 대가였습니다. Richard Zemel은 이후 토론토대 교수로 표현 학습 분야를 개척했습니다.

요약

기술 스펙: 이진 확률적 뉴런들의 계층 구조입니다. 상향식(bottom-up) "인식 모델(recognition model)"과 하향식(top-down) "생성 모델(generative model)" 두 세트의 가중치를 사용합니다. 변분 추론(variational inference) 원리 기반입니다.

핵심 혁신: 복잡한 확률 분포의 근사를 신경망으로 구현했습니다. 데이터의 로그 확률의 하한(lower bound)을 최대화함으로써 학습합니다. 생성과 인식을 별도로 다루면서 EM 알고리즘의 신경망 버전을 제시했습니다.

논문 상세

배경

최대 우도 추정(maximum likelihood estimation)은 강력하지만 복잡한 모델에서는 계산 불가능합니다. 특히 은닉 변수가 있으면 더 그렇습니다. EM 알고리즘이 있지만, 기대값(E-step)을 정확히 계산하기 어렵습니다.

변분 추론이라는 아이디어가 있습니다. 계산하기 쉬운 근사 분포 q(z|x)로 참 사후 분포 p(z|x)를 근사하는 것입니다. Helmholtz 기계는 이를 신경망으로 구현했습니다.

방법론

네트워크는 계층적 구조입니다. 각 계층은 은닉 변수들을 가집니다.

인식 모델: 데이터에서 시작해 계층을 거슬러 올라갑니다(상향식). 각 계층에서 은닉 변수의 확률을 추정합니다. 이것이 근사 사후 분포 q(h|x)입니다.

생성 모델: 최상위 계층의 샘플을 받아 아래로 내려옵니다(하향식). 각 계층에서 하층 변수를 생성합니다. 이것이 p(x|h)의 신경망 구현입니다.

학습은 두 가지 단계를 번갈아 합니다 — 이것은 나중에 Wake-Sleep 알고리즘으로 더 명확해졌습니다.

결과

작은 이미지 패턴(MNIST 전신 같은)을 처리했습니다. 변분 하한(ELBO)이 증가했습니다. 즉, 모델의 로그 확률이 개선되었습니다. 인식 모델과 생성 모델이 점점 더 일관되게 작동했습니다.

통계적으로는 여러 번 학습했을 때 결과가 안정적이었습니다. 하지만 정량적 비교 실험은 제한적이었습니다.

생각

잘한 점

개념적으로 우아합니다. 변분 추론을 신경망으로 구현한다는 아이디어가 명확하고 수학적으로 견고합니다. 생성과 인식을 분리한다는 프레임워크는 이후 딥러닝의 표준이 되었습니다.

논문은 뇌의 피질 처리(cortical processing)와 모델의 구조를 연결시켰습니다. 상향식/하향식 경로를 생물학적으로 해석하려 했습니다. 이런 신경과학 연계는 모델의 타당성을 높였습니다.

수학이 엄격합니다. ELBO(Evidence Lower BOund) 증가를 증명했습니다.

한계

실용성이 떨어집니다. 계산이 복잡하고, 학습이 느렸습니다. 큰 데이터셋으로 확장하기 어려웠습니다.

실험이 소규모입니다. 간단한 패턴 데이터만 사용했습니다. 실제 이미지(MNIST 전체 같은)는 처리하지 않았거나 결과를 자세히 보고하지 않았습니다.

Wake-Sleep 알고리즘 같은 구체적 학습 방법론도 원논문에는 명확하지 않습니다. 인식과 생성을 어떤 목적함수로 동시에 최적화할지 모호했습니다.

은닉 변수의 개수를 어떻게 정할지도 애매합니다. 오버피팅될 가능성이 있습니다.

의의

VAE의 직접적인 선조입니다. 현대 VAE는 변분 하한을 최대화하는 Helmholtz 기계의 정신을 그대로 따릅니다. ELBO를 쓰는 모든 모델이 이 논문의 영향을 받았습니다.

계층적 생성 모델(hierarchical generative model)의 개념도 여기서 나왔습니다. 현대 확산 모델(diffusion models)도 계층적 구조를 가집니다.

생성 모델과 인식 모델의 분리라는 철학은 지금도 유효합니다. 많은 생성 AI 모델들이 이 구조를 기반으로 합니다.

원논문의 한계(계산 복잡성)를 극복한 개선들이 나왔습니다. 특히 Contrastive Divergence(2002)가 학습을 훨씬 빠르게 했고, Variational Autoencoder(2013)가 이 아이디어를 현대적 미니배치 훈련에 맞춰 재구성했습니다.

후속 연구 링크

이 논문의 한계는 Hinton의 이후 연구에서 다루어졌습니다: - 구체적 학습법 불명확 → The wake-sleep algorithm for unsupervised neural networks: 같은 해에 구체적 학습 알고리즘을 제시했습니다 - 계산 복잡성 → Training Products of Experts by Minimizing Contrastive Divergence: Contrastive Divergence로 학습 속도를 대폭 개선했습니다