마르코프 결정 과정

🏷️ 정보 머신러닝

마르코프 결정 과정

마르코프 결정 과정(Markov Decision Process, MDP)은 에이전트가 순차적 의사결정을 내리는 환경을 상태(state), 행동(action), 전이 확률(transition probability), 보상(reward)으로 형식화하는 수학적 프레임워크이다.

핵심

수식

\[V^*(s) = R(s) + \max_a \gamma \sum_{s'} P_{sa}(s') V^*(s')\]