강화 학습

🏷️ 머신러닝 강화학습

강화 학습(Reinforcement Learning)은 에이전트(agent)가 환경(environment)과 상호작용하면서 행동(action)에 따른 보상(reward) 신호를 받아, 누적 보상을 최대화하는 정책(policy)을 학습하는 머신러닝 방법론입니다.

핵심

에이전트, 환경, 상태(state), 행동(action), 보상(reward), 정책(policy)의 구성 요소를 갖습니다
마르코프 결정 과정(MDP)으로 문제를 형식화합니다
가치 함수(value function)와 Q-함수로 상태/행동의 장기적 가치를 추정합니다
가치 반복, 정책 반복, Q-러닝, 정책 경사법 등이 대표 알고리즘입니다
RLHF(인간 피드백으로부터의 강화 학습)로 LLM 정렬에도 활용됩니다