Определение
Обучение с подкреплением на основе обратной связи с человеком (RLHF) — это метод согласования моделей искусственного интеллекта с человеческими ценностями путём включения человеческих суждений в процесс обучения. Он часто используется для тонкой настройки больших языковых моделей.
Цель
Цель — сделать результаты работы ИИ более безопасными, полезными и соответствующими предпочтениям человека. RLHF улучшает диалоговые системы, сокращая количество вредоносных, предвзятых или нерелевантных ответов.
Значение
- Обеспечивает человеческий контроль над обучением ИИ.
- Повышает надежность систем ИИ.
- Трудоемкий процесс из-за необходимости человеческого фактора при аннотировании.
- Относится к моделированию предпочтений и исследованию выравнивания.
Как это работает
- Собирайте отзывы людей, сравнивая результаты модели.
- Обучите модель вознаграждения на основе человеческих предпочтений.
- Используйте обучение с подкреплением для точной настройки базовой модели.
- Оцените эффективность в сравнении с целями согласования.
- Повторите с дополнительной обратной связью.
Примеры (реальный мир)
- OpenAI ChatGPT: оптимизирован для RLHF для более безопасных ответов.
- Конституционный ИИ Anthropic: руководствуется принципами, а не прямой обратной связью.
- InstructGPT: ранняя модель OpenAI, демонстрирующая RLHF.
Ссылки/Дополнительная литература
- Кристиано и др. «Глубокое обучение с подкреплением на основе человеческих предпочтений». NeurIPS 2017.
- OpenAI InstructGPT Paper.
- Структура управления рисками ИИ NIST.
- Что такое обучение с подкреплением и обратной связью с человеком (RLHF)?

