The Forward-Forward Algorithm - Some Preliminary Investigations
역전파는 신경망의 핵심이지만, 한 가지 치명적 약점이 있습니다. 뇌는 역전파를 하지 않습니다. 생물학적으로 설명 불가능하다는 뜻입니다. Hinton은 이 "역전파의 저주"를 벗어나기 위해 역전파를 완전히 제거하는 알고리즘을 제안합니다. Forward-Forward(FF...
25개의 게시물
역전파는 신경망의 핵심이지만, 한 가지 치명적 약점이 있습니다. 뇌는 역전파를 하지 않습니다. 생물학적으로 설명 불가능하다는 뜻입니다. Hinton은 이 "역전파의 저주"를 벗어나기 위해 역전파를 완전히 제거하는 알고리즘을 제안합니다. Forward-Forward(FF...
신경망이 구문 구조를 이해할 수 있을까요? 단어는 음소로, 문장은 단어와 구로 이루어집니다. 이 계층 구조를 신경망의 벡터 공간에 어떻게 짜넣을 것인가라는 질문에 대해, Hinton은 GLOM이라는 프레임워크로, 같은 벡터의 "섬"들이 파스 트리(parse tree) ...
> Chen, T., Kornblith, S., Swersky, K., Norouzi, M., & Hinton, G. E. (2020). Big self-supervised models are strong semi-supervised learners. In *Advan...
> Grill, J.-B., Strub, F., Altché, F., Tallec, C., Richemond, P. H., Buchatskaya, E., ..., & Hinton, G. E. (2020). Bootstrap your own latent: A new ap...
> Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. In *International ...
> Sabour, S., Frosst, N., & Hinton, G. E. (2017). Dynamic routing between capsules. In *Advances in Neural Information Processing Systems* (NIPS 2017)...
> Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. *arXiv preprint arXiv:1607.06450*.
2015년 Nature에 게재된 이 논문은 딥러닝 분야의 3대 거장—Yann LeCun, Yoshua Bengio, Geoffrey Hinton—이 함께 작성했습니다. AlexNet 이후 3년간 딥러닝의 성공사례가 폭발적으로 늘어났고, 이 논문은 그 현황을 정리하면서 ...
훈련된 신경망이 높은 정확도를 달성했지만, 배포 시에는 메모리와 계산량이 문제가 되곤 했습니다. 앙상블 모델의 성능을 단일 모델로 압축할 수 있을까요? 이 논문은 지식 증류(Knowledge Distillation)라는 개념을 제시했습니다. 큰 모델이 학습한 "분포"를...
신경망이 깊어질수록 과적합(overfitting) 위험이 커지는데, 이를 막기 위한 전통적 방법들은 복잡하거나 계산량이 많았습니다. Dropout은 훈련 중 뉴런을 무작위로 끄는 매우 간단한 아이디어로 이 문제를 해결했습니다. 이 논문은 혼합 모델 앙상블의 장점을 단일...
신경망을 훈련하는 것은 고차원 최적화 문제입니다. 경사하강법(SGD)이 어느 지점에서 시작하는지, 그리고 얼마나 빠르게 이동하는지가 수렴성과 성능을 크게 좌우합니다.
신경망의 숨은 뉴런들은 함께 학습합니다. 어떤 뉴런이 "눈"을 탐지하면, 다른 뉴런은 "코"를 탐지하도록 전문화됩니다. 하지만 과적합 때는 어떨까요? 뉴런들이 학습 데이터의 노이즈에 맞춰 "공동 적응(co-adaptation)"하면, 테스트 데이터에서는 엉망이 됩니다....
2012년 초, 음성인식은 여전히 가우시안 혼합 모델(GMM) 기반 은닉 마코프 모델(HMM)에 의존하고 있었습니다. 이 논문은 Google, Microsoft, IBM, Toronto 대학이 함께 쓴 공동 연구로, 깊은 신경망이 음성인식에서 실제로 작동함을 보여주었습...
이미지 분류는 컴퓨터 비전의 핵심 문제지만, 2012년까지만 해도 손으로 설계한 특징들에 크게 의존했습니다. 이 논문은 깊은 신경망이 대규모 이미지 데이터에서 자동으로 특징을 학습할 수 있음을 보여주었고, ImageNet Large-Scale Visual Recogni...
자동 인코더(auto-encoder)는 입력을 압축했다가 복원합니다. 하지만 이미지가 회전하면 어떻게 될까요? 네트워크는 회전된 이미지를 "다른 데이터"로 봅니다. Hinton, Krizhevsky, Wang은 이 문제를 우아하게 풀었습니다. 숨은 뉴런들이 "변환 뉴런...
신경망에서 활성화 함수는 신경원의 출력을 결정합니다. 이 논문은 시그모이드 같은 전통적 함수 대신 정류된 선형 단위(ReLU, max(0, x))를 사용하면 더 나은 특성을 학습할 수 있음을 보였습니다.
고차원 데이터를 2차원이나 3차원으로 시각화하는 것은 데이터의 구조를 이해하는 데 필수적입니다. t-SNE(t-distributed Stochastic Neighbor Embedding)는 이를 위한 표준 방법이 되었습니다.
고차원 데이터를 저차원으로 압축하는 것은 시각화, 계산 효율화, 노이즈 제거 등에 필수적입니다. 이 논문은 오토인코더(autoencoder)라는 신경망 구조로 주성분분석(PCA)보다 나은 결과를 얻었습니다.
신경망이 깊어질수록 학습이 어려워지는 문제가 있었습니다. 이 논문은 각 층을 탐욕적으로(greedy layer-wise) 사전훈련하는 방식으로 이 문제를 해결했습니다.
여러 전문가의 의견을 어떻게 합칠까요? 각 전문가의 확률을 곱하고 정규화하면 됩니다. 하지만 이 "전문가 곱"을 어떻게 훈련할까요? Hinton은 최대 우도 추정의 대안으로 대조 발산(Contrastive Divergence)을 제시했습니다. 이것이 RBM 훈련의 핵심...
Helmholtz 기계를 어떻게 훈련할까요? Hinton, Dayan, Frey, Neal은 생물학적 영감을 기계 학습으로 변환했습니다. 깨어있을 때는 인식, 자는 동안 생성을 배웁니다. 이 우아한 알고리즘은 계층적 신경망의 비지도 학습 방법의 표준이 되었습니다.
인간의 시각 피질은 어떻게 작동할까요? 하향식 신호(예측)와 상향식 신호(감지)를 어떻게 통합할까요? Dayan, Hinton, Neal, Zemel은 두 방향 경로를 모두 갖춘 확률적 네트워크를 제시했습니다. 이것이 나중에 VAE의 이론적 선조가 되었습니다.
과적합은 신경망의 숙명입니다. 데이터가 충분하지 않으면, 네트워크는 학습 데이터의 노이즈까지 기억합니다. 정규화(regularization)의 아이디어는 오래됐지만, Hinton과 van Camp는 정보 이론을 통해 이를 정당화합니다. 가중치의 설명 길이(descrip...
왜 다층 신경망을 훈련할 수 없다고 생각했을까요? 오차가 역으로 흘러가며 각 계층의 가중치를 조정한다면요? Rumelhart, Hinton, Williams는 이 단순한 아이디어로 신경망이 문제에 맞춘 내부 표현을 자동으로 학습할 수 있다는 것을 증명했습니다. 이후 3...
병렬 처리 신경망이 복잡한 제약 만족 문제를 어떻게 풀 수 있을까요? Ackley, Hinton, Sejnowski는 대칭적으로 연결된 확률적 뉴런들의 네트워크가 데이터의 고차 구조를 모델링할 수 있다는 것을 보여줬습니다. 이것이 후대 에너지 기반 모델의 기초가 되었습...