부분 관측 마르코프 결정 과정

🏷️ 머신러닝

부분 관측 마르코프 결정 과정

부분 관측 마르코프 결정 과정(Partially Observable Markov Decision Process, POMDP)은 에이전트가 환경의 실제 상태를 완전히 관측할 수 없고, 불완전한 관측값만 받는 강화 학습 프레임워크이다.

핵심

MDP에 관측 함수 \(O(o|s,a)\)가 추가된 \((S, A, P, R, O, \Omega)\) 형태이다
에이전트는 실제 상태 \(s\)가 아닌 관측값 \(o \in \Omega\)만 받는다
신념 상태(belief state) \(b\)를 이용해 현재 상태의 확률 분포를 추적한다
실제 세계에서는 부분 관측이 일반적이다 (로봇 센서 노이즈, 카드 게임 등)
신념 상태 공간이 연속적이어서 정확한 풀이가 매우 어렵다