정책 반복

🏷️ 정보 머신러닝

정책 반복

정책 반복(Policy Iteration)은 현재 정책의 가치 함수를 정확히 계산하는 정책 평가(policy evaluation)와, 이를 이용해 탐욕적으로 정책을 개선하는 정책 개선(policy improvement)을 교대로 수행하는 알고리즘이다.

핵심