Человек — нейронке друг! Как устроено и зачем нужно обучение нейросети методом RLHF

Большие языковые модели (LLM) обучаются на «человеческом» материале. Как следствие, иногда они ошибаются, звучат слишком формально и допускают дискриминационные высказывания — то есть «зеркалят» обычных людей. Технология Reinforcement learning from human feedback помогает научить робота соответствовать высокой планке, которую мы ему ставим.

Человек — нейронке друг! Как устроено и зачем нужно обучение нейросети методом RLHF

В наших материалах мы уже упоминали, что большие языковые модели (LLM) обучаются на «человеческом» материале — огромном массиве текстов разной тематики, созданных разными людьми. Поглощая эти тексты, модель вычленяет закономерности, связи, суждения и учится генерировать свои ответы.

Таким образом ответы, что мы получаем от ИИ-агента — квинтэссенция всего человеческого, и если нам что-то не нравится, претензии разумно предъявлять не роботу, а самим людям. Излишне формальный тон сообщений, насмешка или дискриминационное высказывание в сообщениях агента — это зеркальное отражение того, как думает, говорит и поступает человек.

К тому же мы ожидаем, что робот лучше (умнее, тактичнее, порядочнее, etc.) человека. А он тоже ошибается — не считывает контекст, не понимает иронию или выбирает неуместный тон коммуникаций. Человек с этими вызовами, как правило, справляется лучше.

Как пофиксить эти недостатки ИИ-агентов? Интуитивно кажется, что нужно объединить потенциал ИИ и человека — и научить робота соответствовать высокой планке, которую мы ему ставим. Так и появилась (RLHF) — Обучение с подкреплением на основе отзывов людей. О ней в этой статье.

Вначале давайте разберём термин. В словосочетании Reinforcement learning from human feedback, кажется, ясна вторая часть — human feedback. В наиболее распространённой версии в русскоязычном варианте это звучит как «отзывы людей». Возможно, корректнее было бы «обратная связь от человека», но это нюансы.

А что за reinforcement learning?

Что за Reinforcement Learning?

Reinforcement Learning (RL) — это обучение с подкреплением, метод машинного обучения, при котором агент учится принимать решения через взаимодействие с окружающей средой. Процесс обучения с подкреплением требует наличия нескольких компонентов:

1. Agent (Агент). Система, которая принимает решения и выполняет действия.

2. Environment (Среда). Всё, с чем взаимодействует агент. Она предоставляет агенту информацию о текущем состоянии и наградах.

3. Reward (Награда/Штраф). Сигнал, получаемый агентом от среды, который указывает на успех или неуспех его действия.

4. Policy (Стратегия, часто называемая Политикой). Стратегия, в соответствии с которой агент предпринимает те или иные действия в различных состояниях.

В отличие от классического метода обучения с учителем (supervised learning) в процессе RL отсутствуют предварительно размеченные данные — то есть агент не получает информации о среде, с которой ему нужно взаимодействовать.

Обучение модели происходит так же, как обучение человека или любого другого животного — на основе метода проб и ошибок. В ответ на свои действия агент получает сигналы подкрепления — награды или штрафы. Цель агента в том, чтобы получить максимальную награду за определённый период времени. На основе сигналов агент строит стратегию взаимодействия с конкретной средой.

Таким образом, цель Reinforcement Learning — сформировать оптимальный алгоритм (стратегию) взаимодействия со средой для достижения желаемого результата.

Откуда агент получает сигналы?

В процессе классического обучения с подкреплением агент получает награды (rewards) от окружающей среды, с которой он взаимодействует. Награды могут быть как положительными, так и отрицательными. Они служат сигналами для оценки успешности действий агента.

Агент получает вознаграждение за выполнение желаемого действия или достижение определённой цели. Например, в игре агент может получать очки за победу над противником или за выполнение уровня. А за нежелательные действия, такие как столкновение с препятствием или проигрыш в игре агент получит штраф.

Награды могут поступать непосредственно от среды, в которой работает агент. Например, в робототехнике агент может получать награды за успешное выполнение задач по перемещению объектов или навигации по маршруту.

Задачи для обучения с подкреплением

Метод обучения с подкреплением широко используется в машинном обучении и показывает классные результаты во многих сферах. Агенты, обученные на RL, хорошо справляются не только с задачами, в которых определить успешный исход сравнительно несложно, но и там, где определение «правильности» и успеха не столь очевидно.

  • Автономное вождение

При управлении автономным автомобилем часто нет однозначно правильных или неправильных действий. Агенту нужно балансировать между безопасностью, эффективностью, комфортом пассажиров и другими факторами. Обучение с подкреплением позволяет ему учиться на опыте вождения в реальных условиях и вырабатывать оптимальные стратегии поведения на дороге.

  • Торговые стратегии на финансовых рынках

При торговле ценными бумагами или другими активами нет гарантии, что конкретное решение будет правильным. Успех зависит от множества факторов, которые сложно предсказать. Агент, обученный с помощью RL, может анализировать большие объёмы данных, выявлять скрытые закономерности и адаптировать свои торговые стратегии к меняющимся рыночным условиям.

  • ‍Стратегии поведения в играх

В играх, особенно многопользовательских, часто нет однозначно верных решений. Успех зависит от действий других игроков, непредсказуемых событий и общей стратегии. RL позволяет агентам обучаться на опыте реальной игры и вырабатывать оптимальные стратегии поведения в различных игровых ситуациях.

  • ‍Управление ресурсами в ритейле

Управляя запасами в розничной торговле, нужно учитывать множество факторов — спрос, сезонность, акции поставщиков... Решение, правильное в одном случае, может оказаться неверным в другом. Агент, обученный с помощью RL, может адаптировать свои стратегии управления запасами к конкретным условиям каждого магазина и максимизировать прибыль.

Таким образом, обучение с подкреплением особенно эффективно в задачах, где правильность решения зависит от множества факторов и нет однозначных ответов. Оно позволяет агентам учиться на опыте и вырабатывать оптимальные стратегии поведения в сложных, динамических средах.

Привлекаем человека

Каждый, кто работает с ChatGPT или любыми другими ИИ-агентами, хотя бы раз ловил себя на ощущении, будто тот отвечает не вопрос в целом, а лишь ухватив два-три ключевых слова. А ещё бывает, что ИИ-помощник отпускает реплики, которые звучат не слишком корректно и дружелюбно, или даёт советы, которые не отвечают общечеловеческим гуманистическим ценностям. С агентами новых поколений такое случается реже и всё же...

Как должно быть 
Как должно быть 
Как может быть 
Как может быть 

Ещё ИИ-агенты пока не так круто справляются с нюансами, тонкостями, пониманием широкого контекста запроса, коннотациями и двойными смыслами. И любят давать ответы с «водянистыми», бесполезными формулировками.

Здесь вступает в игру человек. При всех своих ограничениях с этими вызовами он работает лучше. Идея витала в воздухе — почему бы не привлечь человека к (до)обучению LLM? Так технология RL получила новую разновидность — Reinforcement learning from human feedback.

Суть RLHF в том, что человек (его называют аннотатор) оценивает ответы агента, помечая их как ок или не ок. На основе этого фидбека агент дообучается. Каждый круг отзывов от человека оптимизирует модель и её стратегию — и повышает шансы дать релевантный ответ, который понравится реальному живому пользователю.

Этапы RLHF

Вот как может выглядеть флоу RLHF:

1. Подготовка обучающих данных. Люди готовят промпты (запросы) и идеальные ответы на них.

2. Предварительное обучение основной языковой модели с учителем (supervised learning). Можно не проводить самостоятельное обучение с нуля, а взять готовую предобученную коммерческую модель.

3. Основная модель генерирует ответы на запросы из пункта 1. Аннотатор сравнивает ответы модели с идеальными ответами, подготовленными человеком, и ранжирует их по качеству, полезности и соответствию ожиданиям.

Благодаря этому фидбеку от людей модель корректирует стратегию (политику) формирования ответов так, чтобы они были ближе к ответам людей. Но возлагать на людей весь процесс дообучения было бы слишком дорого и трудоёмко. Поэтому… 👇

4. На основе стратегии обучают модель вознаграждения. В разных источниках её называют reward model или preference model. Эта предварительно обученная модель, которая дообучается на основе фидбека от человека, чтобы в дальнейшем ориентироваться на требования человека, быть его «представителем».5. Модель вознаграждения «представляет» человека в обучении основной модели, оценивая её ответы как будто с «человеческой» точки зрения. Шаги 3-5 повторяются несколько раз.

Теперь, выбирая ответ на каждый запрос, основная модель будет ориентироваться на стандарты, задаваемые моделью вознаграждения, стараясь найти тот, что с большей вероятностью понравится модели вознаграждения, а значит, и человеку. Так происходит оптимизация основной модели и улучшение качества её ответов.

Процесс дообучения ChatGPT с помощью Reinforcement Learning from Human Feedback. Источник — пост в блоге Open AI. 
Процесс дообучения ChatGPT с помощью Reinforcement Learning from Human Feedback. Источник — пост в блоге Open AI. 

Области применения

Как мы уже упомянули, RLHF эффективно применяется для решения задач, где ожидаемое успешное действие сформулировать не так просто:

→ Обработка естественного языка (Natural Language Understanding + Natural Language Processing)

Обучение с подкреплением от человека помогает улучшать работу разговорных агентов (conversational agents). Пример — популярный сервис character.ai, где пользователю предлагают оценить сообщение от агента и при необходимости дать комментарий.

Сервис character.ai предлагает пользователю оценить сообщение от агента и поделиться мнением.
Сервис character.ai предлагает пользователю оценить сообщение от агента и поделиться мнением.

Технология помогает агентам делать более качественные саммари текста, а также более чутко реагировать на эмоциональную составляющую диалога и точнее подбирать тональность ответов.

С помощью RLHF агенты учатся подавать информацию в более полезном виде. Например, рассказывая о погоде, можно просто насыпать числовых показателей — температуру, влажность, атмосферное давление... А можно рассказать о том, как человек будет ощущать такие метеоусловия, как лучше одеться и вести себя за рулём в такую погоду.

Ещё одна задача, где человек помогает ИИ — переводы. Качество переводов агента, который учился при помощи фидбека от аннотаторов, заметно выше.

Успешные сегодня агенты Chat GPT и Sparrow проходили и продолжают проходить обучение с помощью RLHF. Это стало известно в том числе благодаря скандальной новости о том, что Open AI использовала для дообучения Chat GPT сотрудников из Кении, которые получали меньше $2 в час.

Человек — нейронке друг! Как устроено и зачем нужно обучение нейросети методом RLHF

→ Компьютерное зрение

RLHF, используемый в моделях преобразования текста в изображение, помогает улучшить качество сгенерированных изображений, подтягивая их уровень до ожиданий пользователя.

→ Разработка игр

RLHF применяют для обучения игровых ботов — их работу оценивают и оптимизируют на основе оценок людей, а не традиционных показателей в баллах.

Проблемы и ограничения

Несмотря на преимущества, RLHF сталкивается с проблемами:

  • ‍Сбор данных. Сбор качественной человеческой обратной связи от людей может быть дорогим и трудоёмким. При этом качество фидбека — ключевой фактор в этом методе обучения.К тому же негативную роль может сыграть предвзятость в обратной связи — например, если выборка аннотаторов недостаточно разнообразана по демографическим и другим характеристикам. И в целом нужно учитывать, что мнение человека субъективно, а значит, в каких-то случаях ответы агента, обученного на фидбеке от человека, будут неоднозначно восприняты разными пользователем.
  • ‍Переобучение (overfitting). Агент может запоминать конкретный эпизод фидбека и не делать на его основе нужных обобщений. Тогда с будущем он прекрасно отработает абсолютно аналогичный контекст, но не справится с похожими случаями, которые, казалось бы, встраиваются в тот же паттерн.
  • ‍Риски манипуляции. Модели могут использовать систему обратной связи, обучаясь производить результаты, которые привлекательны внешне, а не действительно эффективны. Например, давать чрезмерно вежливые, но неинформативные ответы, уклоняться от сложных вопросов, прикрываясь общими фразами, соглашаться с пользователем без всяких на то оснований или давать общие советы, которые звучат полезно, но не имеют конкретного применения.
Спасибо, капитан!! 😁
Спасибо, капитан!! 😁
Алексей Нечаев
контент-маркетолог
22
1 комментарий

Мне кажется что все таки должно быть наоборот, нейронка человеку друг, так как во многих вещах помогает

1
ИИ без хайпа: что реально работает уже сегодня, а что пока просто красиво звучит? (февраль 2025)

Мы постоянно слышим хайповые заявления: “ИИ нас всех заменит”, “экспертиза больше не является ограничением", “мы уже знаем как создать AGI” итп. Под влиянием медиа и общественных ожиданий многие воспринимают потенциальные или прогнозируемые технологии как уже существующие.

Сложные отношения с большой кучей данных
11
реклама
разместить
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацие…

11
Запрет на рекламу в Instagram, Facebook и X. Как повлияет на рекламный рынок в России и что делать дальше?
Запрет на рекламу в Instagram, Facebook и X. Как повлияет на рекламный рынок в России и что делать дальше?
Как DeepSeek-R1 научилась мыслить и «последний экзамен человечества»: топ-10 исследований ИИ за январь 2025
Как DeepSeek-R1 научилась мыслить и «последний экзамен человечества»: топ-10 исследований ИИ за январь 2025

Январь вновь оказался насыщенным месяцем на прорывные исследования в сфере искусственного интеллекта (ИИ). В этой статье я отобрал десять работ, которые ярко демонстрируют, как современные методы обучения с подкреплением (RL), мультиагентные системы и мультимодальность помогают ИИ-агентам не только решать сложнейшие задачи, но и приближаться к пони…

Революция в исследованиях: Как генеративные агенты на базе 1000 реальных людей меняют подход к изучению клиентов

В рамках этой статьи мы рассмотрим, как работает эта технология, насколько она точна, и самое главное — как бизнес может использовать этот инструмент для улучшения процессов принятия решений, проведения более эффективных кастдев-интервью и создания продуктов, которые действительно резонируют с целевой аудиторией.

Нужны ли боты-наставники/коучи/тьюторы корпоративному обучению?

Самообучение через ботов с ИИ стало новым трендом. Особенно в сфере изучения иностранных языков и программирования. Посмотрел видео/почитал статью; если что-то непонятно — задал вопросы боту. Очень удобно. Практически как с наставником… только бесплатно, 24/7, и ответ получаешь моментально.

Нужны ли боты-наставники/коучи/тьюторы корпоративному обучению?
11
Творческие мастер-классы для детей и взрослых: собрали ТОП самых интересных в Москве
Творческие мастер-классы в Москве – создавайте шедевры своими руками!
Chat GPT. Реальные возможности ChatGPT 4.5. Обзор особенностей, преимуществ и ограничений новейшей модели OpenAI

Вы используете ChatGPT, но не получаете ожидаемых результатов? Чувствуете, что теряете время и деньги, разбираясь в настройках?
В этой статье я подробно разберу реальные возможности новой модели ChatGPT 4.5, сравню ее с конкурентами и поделюсь проверенными методами, которые увеличат эффективность вашей работы с нейросетью в 3-5 раз. Узнайте, стоит…

11
Как построить качественный фундамент для LLM+RAG
Как построить качественный фундамент для LLM+RAG

Разбираемся, зачем генеративному ИИ нужна качественная база знаний и какими характеристиками она должна обладать, чтобы LLM-модель выдавала релевантные ответы, а не «галлюцинации».

реклама
разместить
Как ИИ делают лучше

В области ИИ есть два важных понятия. С одной стороны, оба описывают процесс улучшения ИИ, с другой стороны, преследуют разные цели. Эти понятия – «alignment» и «fine-tuning». Для удобства в этом посте я буду переводить «AI alignment» как «настройка ИИ», а «fine-tuning» как «дообучение».
И то, и другое, предполагает обретение ИИ новых навыков. Но в…

Как Deep Research помогает прокачать корпоративное обучение и продажи (и почему это не только про AI)

Представьте, что вы курируете корпоративное обучение в крупной компании. У вас сотни продавцов (а иногда и тысячи), которые требуют постоянной прокачки навыков, руководители хотят видеть точную аналитику по результатам каждого тренинга, а рынок диктует новые требования к продуктам и процессам продаж. Кажется, что держать руку на пульсе всей этой ин…

Как большие языковые модели планируют свои ответы еще до их генерации
Как большие языковые модели планируют свои ответы еще до их генерации

Что, если я скажу, что большие языковые модели не просто предсказывают следующий токен в ответ на запрос, а уже на ранних этапах формирования ответа «заранее планируют» его характеристики?

22
[]