RLHF

🏷️ 정보 LLM

RLHF

RLHF(Reinforcement Learning from Human Feedback, 인간 피드백으로부터의 강화 학습)는 인간 평가자의 선호도 비교 데이터로 보상 모델을 훈련하고, 이를 강화 학습 신호로 삼아 LLM을 인간의 의도와 가치에 맞게 조정하는 기법이다.

핵심