가치 반복

🏷️ 머신러닝 강화학습

가치 반복(Value Iteration)은 벨만 최적 방정식을 반복적으로 적용하여 최적 가치 함수 \(V^*\)에 수렴하는 동적 프로그래밍 알고리즘입니다.

핵심

초기 가치 함수 \(V_0\)를 임의로 설정하고, 벨만 업데이트를 반복합니다
각 반복에서 \(V_{k+1}(s) = R(s) + \max_a \gamma \sum_{s'} P_{sa}(s') V_k(s')\)
\(\|V_{k+1} - V_k\|_\infty < \epsilon\)이 되면 수렴으로 판단합니다
유한 상태 공간 MDP에서 최적 정책으로의 수렴이 보장됩니다
수렴 후 최적 정책: \(\pi^*(s) = \arg\max_a \sum_{s'} P_{sa}(s') V^*(s')\)

수식

\[V_{k+1}(s) \leftarrow R(s) + \max_a \gamma \sum_{s'} P_{sa}(s') V_k(s')\]