가치 반복

🏷️ 정보 머신러닝

가치 반복

가치 반복(Value Iteration)은 벨만 최적 방정식을 반복적으로 적용하여 최적 가치 함수 \(V^*\)에 수렴하는 동적 프로그래밍 알고리즘이다.

핵심

수식

\[V_{k+1}(s) \leftarrow R(s) + \max_a \gamma \sum_{s'} P_{sa}(s') V_k(s')\]