가치 함수

🏷️ 정보 머신러닝

가치 함수

가치 함수(Value Function)는 강화 학습에서 에이전트가 특정 상태 \(s\)에서 특정 정책 \(\pi\)를 따를 때 얻을 수 있는 기대 누적 할인 보상을 나타내는 함수이다.

핵심

수식

\[V^\pi(s) = \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R(s_t) \mid s_0=s, \pi\right]\]