직접 정책 탐색

🏷️ 정보 머신러닝

직접 정책 탐색

직접 정책 탐색(Direct Policy Search)은 가치 함수를 중간에 계산하지 않고, 매개변수화된 정책 \(\pi_\theta\)의 매개변수 \(\theta\)를 직접 최적화하여 최적 정책을 찾는 강화 학습 접근법이다.

핵심