Ronald Williams

🏷️ 인물 딥러닝 머신러닝

Ronald James Williams (1945-2024)는 미국의 수학자이자 전산학자입니다. 신경망 분야의 개척자 중 한 명으로 꼽힙니다. 1983년부터 1986년까지 David Rumelhart가 이끄는 UCSD Institute for Cognitive Science의 PDP 연구 그룹 일원으로 활동했고, 1986년 노스이스턴대 컴퓨터과학과 교수로 부임해 정년까지 그곳에 머물렀습니다.

1986년 David Rumelhart, Geoffrey Hinton과 함께 Nature에 발표한 역전파 논문 Learning representations by back-propagating errors에서 그래디언트 유도와 알고리즘 형식화를 담당했습니다. 본 논문에서 Williams의 역할은 수식적 엄밀성을 보강하고 누적 그래디언트 업데이트와 모멘텀 항을 정리하는 작업이었습니다.

이후 Williams는 강화학습으로 무대를 넓혔습니다. 1992년 발표한 "Simple statistical gradient-following algorithms for connectionist reinforcement learning"에서 REINFORCE 알고리즘을 제안했고, 이는 정책 그래디언트(policy gradient) 계열의 출발점이 됩니다. 인용수 1만 회를 넘기는 현대 RL의 표준 도구입니다.

순환 신경망(RNN) 학습 방법에서도 핵심 기여를 남겼습니다. David Zipser와 함께 teacher forcing 알고리즘을 고안했고, 시간을 거슬러 그래디언트를 흘리는 BPTT(backpropagation through time)의 정립에도 기여했습니다. 이 작업들은 LSTM 이전 시대 RNN 연구의 기반이 되었습니다.

2024년 2월 16일 별세했습니다.