Обсуждение:Обучение с подкреплением из обратной связи человека (RLHF)

Материал из MachineLearning.

Перейти к: навигация, поиск

Промпт для генерации статьи

Промпт, использованный для генерации статьи «Обучение с подкреплением из обратной связи человека (RLHF)» с помощью LLM Claude Sonnet 4:

Напиши подробную статью для вики-энциклопедии MachineLearning.ru на тему «Обучение с подкреплением из обратной связи человека (RLHF)».
Требования:
1. Структура: введение, история, общая схема (SFT → RM → RL), детальное описание каждого этапа с формулами.
2. Формулы в тегах ...: функция потерь SFT, модель предпочтений Брэдли–Терри, функция потерь RM, целевой функционал PPO с KL-регуляризацией, формула PPO CLIP, формула DPO.
3. Раздел о RLAIF и Constitutional AI.
4. Раздел о проблемах: reward hacking, дрейф распределения, стоимость разметки, предвзятость разметчиков.
5. Раздел о применениях.
6. Внутренние вики-ссылки на связанные статьи.
7. Категории: Машинное обучение, Обучение с подкреплением, Языковые модели.
8. Литература: InstructGPT (Ouyang et al., 2022), DPO (Rafailov et al., 2023), Constitutional AI (Bai et al., 2022), Sutton & Barto.
9. Шаблон well добавить отдельно.

-- Emil Petrov Emil Petrov 15:37, 16 июня 2026 (MSD)

Личные инструменты