적합 가치 반복

🏷️ 정보 머신러닝

적합 가치 반복

적합 가치 반복(Fitted Value Iteration)은 연속 상태 MDP에서 표(tabular) 가치 함수 대신 선형 회귀나 신경망 같은 함수 근사기로 가치 함수를 표현하는 강화 학습 알고리즘이다.

핵심