벨만 방정식

🏷️ 정보 머신러닝

벨만 방정식

벨만 방정식(Bellman's Equation)은 최적 가치 함수 \(V^*(s)\)를 현재의 즉각 보상과 다음 상태의 최적 가치의 할인 합으로 재귀적으로 표현하는 방정식이다.

핵심

수식

\[V^*(s) = R(s) + \max_a \gamma \sum_{s' \in S} P_{sa}(s') V^*(s')\]