정책 반복

🏷️ 머신러닝 강화학습

정책 반복(Policy Iteration)은 현재 정책의 가치 함수를 정확히 계산하는 정책 평가(policy evaluation)와, 이를 이용해 탐욕적으로 정책을 개선하는 정책 개선(policy improvement)을 교대로 수행하는 알고리즘입니다.

핵심

정책 반복은 유한한 단계 내에 최적 정책으로 수렴합니다
가치 반복보다 각 반복에서 더 많은 계산이 필요하지만 더 빠르게 수렴하는 경우가 많습니다
정책 평가: 현재 정책 \(\pi\)에 대해 \(V^\pi\)를 선형 방정식 풀이로 정확히 계산
정책 개선: \(\pi_{k+1}(s) = \arg\max_a \sum_{s'} P_{sa}(s') V^{\pi_k}(s')\)
수렴한 정책은 반드시 최적 정책임이 보장됩니다