벨만 방정식

🏷️ 머신러닝 강화학습

벨만 방정식(Bellman's Equation)은 최적 가치 함수 \(V^*(s)\)를 현재의 즉각 보상과 다음 상태의 최적 가치의 할인 합으로 재귀적으로 표현하는 방정식입니다.

핵심

현재 가치 = 즉각 보상 + 할인된 미래 가치의 최댓값
가치 반복 알고리즘은 벨만 방정식을 반복 적용하여 \(V^*\)로 수렴합니다
Q-러닝은 벨만 방정식을 Q-함수에 적용합니다
연속 상태 공간에서는 함수 근사기(신경망 등)로 가치 함수를 근사합니다
동적 프로그래밍의 핵심 원리인 최적 부분 구조(optimal substructure)를 표현합니다

수식

\[V^*(s) = R(s) + \max_a \gamma \sum_{s' \in S} P_{sa}(s') V^*(s')\]