가치 함수
가치 함수
가치 함수(Value Function)는 강화 학습에서 에이전트가 특정 상태 \(s\)에서 특정 정책 \(\pi\)를 따를 때 얻을 수 있는 기대 누적 할인 보상을 나타내는 함수이다.
핵심
- 상태 가치 함수 \(V^\pi(s)\): 정책 \(\pi\) 하에서 상태 \(s\)의 가치
- 행동 가치 함수 \(Q^\pi(s,a)\): 상태 \(s\)에서 행동 \(a\)를 취하고 이후 \(\pi\)를 따를 때의 가치
- 최적 가치 함수 \(V^*(s) = \max_\pi V^\pi(s)\)
- 가치 함수를 알면 최적 정책 \(\pi^*(s) = \arg\max_a Q^*(s,a)\)를 구할 수 있다
- 벨만 방정식으로 재귀적으로 정의된다
수식
\[V^\pi(s) = \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R(s_t) \mid s_0=s, \pi\right]\]