마르코프 결정 과정

마르코프 결정 과정(Markov Decision Process, MDP)은 에이전트가 순차적 의사결정을 내리는 환경을 상태(state), 행동(action), 전이 확률(transition probability), 보상(reward)으로 형식화하는 수학적 프레임워크이다.

핵심

\((S, A, P_{sa}, \gamma, R)\)의 5-튜플로 정의된다
마르코프 성질: 다음 상태는 현재 상태와 행동에만 의존하고 과거 이력에는 무관하다
에이전트의 목표는 할인된 누적 보상 \(\mathbb{E}[\sum_{t=0}^{\infty} \gamma^t R(s_t)]\)을 최대화하는 것이다
할인 인자 \(\gamma \in [0,1]\)은 미래 보상에 대한 중요도를 조절한다
최적 정책은 벨만 방정식을 통해 가치 반복이나 정책 반복으로 구할 수 있다

수식

\[V^*(s) = R(s) + \max_a \gamma \sum_{s'} P_{sa}(s') V^*(s')\]