정책 반복
정책 반복
정책 반복(Policy Iteration)은 현재 정책의 가치 함수를 정확히 계산하는 정책 평가(policy evaluation)와, 이를 이용해 탐욕적으로 정책을 개선하는 정책 개선(policy improvement)을 교대로 수행하는 알고리즘이다.
핵심
- 정책 반복은 유한한 단계 내에 최적 정책으로 수렴한다
- 가치 반복보다 각 반복에서 더 많은 계산이 필요하지만 더 빠르게 수렴하는 경우가 많다
- 정책 평가: 현재 정책 \(\pi\)에 대해 \(V^\pi\)를 선형 방정식 풀이로 정확히 계산
- 정책 개선: \(\pi_{k+1}(s) = \arg\max_a \sum_{s'} P_{sa}(s') V^{\pi_k}(s')\)
- 수렴한 정책은 반드시 최적 정책임이 보장된다