직접 정책 탐색

직접 정책 탐색(Direct Policy Search)은 가치 함수를 중간에 계산하지 않고, 매개변수화된 정책 \(\pi_\theta\)의 매개변수 \(\theta\)를 직접 최적화하여 최적 정책을 찾는 강화 학습 접근법이다.

핵심

정책을 \(\pi_\theta\)로 매개변수화하고 기대 누적 보상 \(J(\theta) = \mathbb{E}_\pi[\sum_t R(s_t)]\)를 최대화한다
정책 경사법(policy gradient): \(\nabla_\theta J(\theta) = \mathbb{E}[\nabla_\theta \log \pi_\theta(a|s) \cdot Q^\pi(s,a)]\)
확률적 정책도 표현 가능하고, 연속 행동 공간에서 유리하다
REINFORCE, Actor-Critic, PPO 등이 대표적인 알고리즘이다
분산이 높아 샘플 효율이 낮다는 단점이 있어 기준선(baseline) 기법으로 완화한다