가치 함수

🏷️ 머신러닝

가치 함수

가치 함수(Value Function)는 강화 학습에서 에이전트가 특정 상태 \(s\)에서 특정 정책 \(\pi\)를 따를 때 얻을 수 있는 기대 누적 할인 보상을 나타내는 함수이다.

핵심

상태 가치 함수 \(V^\pi(s)\): 정책 \(\pi\) 하에서 상태 \(s\)의 가치
행동 가치 함수 \(Q^\pi(s,a)\): 상태 \(s\)에서 행동 \(a\)를 취하고 이후 \(\pi\)를 따를 때의 가치
최적 가치 함수 \(V^*(s) = \max_\pi V^\pi(s)\)
가치 함수를 알면 최적 정책 \(\pi^*(s) = \arg\max_a Q^*(s,a)\)를 구할 수 있다
벨만 방정식으로 재귀적으로 정의된다

수식

\[V^\pi(s) = \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R(s_t) \mid s_0=s, \pi\right]\]