적합 가치 반복
적합 가치 반복
적합 가치 반복(Fitted Value Iteration)은 연속 상태 MDP에서 표(tabular) 가치 함수 대신 선형 회귀나 신경망 같은 함수 근사기로 가치 함수를 표현하는 강화 학습 알고리즘이다.
핵심
- 유한 샘플 상태들에서 벨만 타겟을 계산하고, 이를 지도 학습으로 근사한다
- 샘플 상태 \(s^{(i)}\)에서 \(y^{(i)} = R(s^{(i)}) + \gamma \max_a \mathbb{E}_{s'}[V(s')]\)를 계산한다
- 선형 회귀나 신경망으로 \(V(s) \approx \theta^T \phi(s)\)를 적합한다
- 차원의 저주를 완화하여 고차원 연속 상태 공간에서도 적용 가능하다
- 수렴이 항상 보장되지 않는다는 이론적 한계가 있다