부분 관측 마르코프 결정 과정
부분 관측 마르코프 결정 과정
부분 관측 마르코프 결정 과정(Partially Observable Markov Decision Process, POMDP)은 에이전트가 환경의 실제 상태를 완전히 관측할 수 없고, 불완전한 관측값만 받는 강화 학습 프레임워크이다.
핵심
- MDP에 관측 함수 \(O(o|s,a)\)가 추가된 \((S, A, P, R, O, \Omega)\) 형태이다
- 에이전트는 실제 상태 \(s\)가 아닌 관측값 \(o \in \Omega\)만 받는다
- 신념 상태(belief state) \(b\)를 이용해 현재 상태의 확률 분포를 추적한다
- 실제 세계에서는 부분 관측이 일반적이다 (로봇 센서 노이즈, 카드 게임 등)
- 신념 상태 공간이 연속적이어서 정확한 풀이가 매우 어렵다