Глоссарий

Что такое RLHF (Reinforcement Learning from Human Feedback)

RLHF (Reinforcement Learning from Human Feedback)

RLHF — метод обучения AI-моделей с подкреплением на основе человеческой обратной связи для повышения качества ответов.

RLHF — метод обучения AI-моделей с подкреплением на основе человеческой обратной связи. После предобучения модели люди-асессоры оценивают и ранжируют ответы, формируя модель вознаграждения. Затем языковая модель оптимизируется через алгоритм PPO, чтобы генерировать ответы, которые люди оценивают выше. RLHF делает модели более полезными, безопасными и следующими инструкциям. Это ключевая технология в ChatGPT, Claude и других коммерческих AI-ассистентах.