적합 가치 반복

적합 가치 반복(Fitted Value Iteration)은 연속 상태 MDP에서 표(tabular) 가치 함수 대신 선형 회귀나 신경망 같은 함수 근사기로 가치 함수를 표현하는 강화 학습 알고리즘입니다.

핵심

유한 샘플 상태들에서 벨만 타겟을 계산하고, 이를 지도 학습으로 근사합니다
샘플 상태 \(s^{(i)}\)에서 \(y^{(i)} = R(s^{(i)}) + \gamma \max_a \mathbb{E}_{s'}[V(s')]\)를 계산합니다
선형 회귀나 신경망으로 \(V(s) \approx \theta^T \phi(s)\)를 적합합니다
차원의 저주를 완화하여 고차원 연속 상태 공간에서도 적용 가능합니다
수렴이 항상 보장되지 않는다는 이론적 한계가 있습니다