강화 학습
강화 학습
강화 학습(Reinforcement Learning)은 에이전트(agent)가 환경(environment)과 상호작용하면서 행동(action)에 따른 보상(reward) 신호를 받아, 누적 보상을 최대화하는 정책(policy)을 학습하는 머신러닝 방법론이다.
핵심
- 에이전트, 환경, 상태(state), 행동(action), 보상(reward), 정책(policy)의 구성 요소를 갖는다
- 마르코프 결정 과정(MDP)으로 문제를 형식화한다
- 가치 함수(value function)와 Q-함수로 상태/행동의 장기적 가치를 추정한다
- 가치 반복, 정책 반복, Q-러닝, 정책 경사법 등이 대표 알고리즘이다
- RLHF(인간 피드백으로부터의 강화 학습)로 LLM 정렬에도 활용된다