벨만 방정식
벨만 방정식
벨만 방정식(Bellman's Equation)은 최적 가치 함수 \(V^*(s)\)를 현재의 즉각 보상과 다음 상태의 최적 가치의 할인 합으로 재귀적으로 표현하는 방정식이다.
핵심
- 현재 가치 = 즉각 보상 + 할인된 미래 가치의 최댓값
- 가치 반복 알고리즘은 벨만 방정식을 반복 적용하여 \(V^*\)로 수렴한다
- Q-러닝은 벨만 방정식을 Q-함수에 적용한다
- 연속 상태 공간에서는 함수 근사기(신경망 등)로 가치 함수를 근사한다
- 동적 프로그래밍의 핵심 원리인 최적 부분 구조(optimal substructure)를 표현한다
수식
\[V^*(s) = R(s) + \max_a \gamma \sum_{s' \in S} P_{sa}(s') V^*(s')\]