О проблеме выравнивания искусственного интеллекта на пальцах

Я интересуюсь новостями искусственного интеллекта, и расскажу простыми словами, что такое проблема выравнивания, почему она важна для развития самой технологии и нас с вами, потребителей сервисов искусственного интеллекта. А также о последних достижениях в решении этой головоломной задачи.

Что за выравнивание?

Есть серьезная научная проблема: как контролировать мощные модели нам, людям? Модели искусственного интеллекта (ИИ) прогрессируют очень быстро, и скоро "перерастут" наши возможности. Так, если GPT-1 мог только составлять слова, то GPT-3 - уже слагать поэмы, и ученые уверены, что создание сверх интеллекта - это вопрос буквально ближайшего десятилетия (подробнее тут и тут).

Проблема в том, что ИИ может создать тонны опасного кода или текста, который физически будет сложно проверить. Но даже если и задаться такой целью, то это вряд ли возможно: уже скоро ИИ сможет создавать то, в чем даже экспертам будет сложно разобраться (разработчики ИИ всерьез говорят о том, что вскоре ИИ сможет делать научные открытия).

Open AI приводит весьма доходчивую аналогию:

Аналогия для сравнения ролей обучающего (супервайзера) и обучаемого для обычных моделей и суперинтеллекта<br />
Аналогия для сравнения ролей обучающего (супервайзера) и обучаемого для обычных моделей и суперинтеллекта

Почему эта проблема так важна для нас?

ИИ может быть не только полезным, но и разрушительным: с учетом всего того объема знаний и знания особенностей и уязвимостей конкретного человека-пользователя (а мы рассказываем ИИ о себе порой гораздо больше, чем близким). И если мы не найдем способ контролировать ИИ, то его развитие может стать еще большей проблемой, чем ядерная угроза.

Без решения этой проблемы не будет безопасного суперинтеллекта, а значит, ученые будут сдерживать его распространение для нас, обычных пользователей.

Поэтому проблема создания безопасного ИИ - одна из ключевых сейчас для его разработчиков, вот манифест OpenAI на тему безопасности ИИ. К слову, именно потому, что сейчас эта проблема не решена и потенциально очень опасна, OpenAI отказался от своей первоначальной идеи открытого кода ChatGPT, подробнее - тут). Летом 2023 года в OpenAI была сформирована целая команда “супервыравнивателей”, в числе которых сооснователь OpenAI Илья Суцкевер (статья о взглядах Ильи на ИИ).

Наша цель — решить основные технические вызовы согласования сверхразума за четыре года.

Из статьи Introducing Superalignment в блоге OpenAI

Лидеры команды выравнивания (И.Суцкевер, Я.Лейке - глава отдела выравнивания), признаются, что это чертовски амбициозная цель, и успех не гарантирован.

Обеспечение безопасного создания, внедрения и использования систем искусственного интеллекта имеет решающее значение для нашей миссии.

Эпиграф к статье Our approach to AI safety в блоге OpenAI

А существует ли вообще решение проблемы слабого учителя?

Изначально ИИ обучается почти как человек: на примерах (размеченных человеком данных). Этот метод называется “обучение с подкреплением на основе обратной связи с человеком” (reinforcement learning from human feedback, RLHF). Когда человеческих способностей для обучения будет недостаточно, можно использовать более ранние ИИ модели для обучения моделей следующего поколения.

А это вообще возможно? - спросите вы. Школьник может обучать студента университета? Да, может: ведь студент обладает большим объемом знаний и навыков, а значит, используя их, он может превзойти своего учителя. В конце концов, иначе человечество не прогрессировало бы, так что это вполне реально.

Сложность заключается в том, чтобы найти подход для обучения новых моделей на базе предыдущих. Как сделать так, чтобы новая модель в прямом смысле училась на ошибках предыдущей модели, но не совершала, а исправляла их, используя свои более совершенные возможности?

Именно этот подход используют в OpenAI для решения проблемы выравнивания (согласования) ИИ, который получил название “weak-to-strong generalization” (дословно - обобщение от слабого к сильному).

Как решают эту проблему в OpenAI

В OpenAI сравнили результаты четырех подходов к обучению:

1 - GPT-2 (базовый уровень)

2 - модель, улучшенная на основе стандартного подхода обратной связи от человека

3 - новый подход OpеnAI к обучению - обучение сильной модели с помощью слабой

4 - GPT-4 (как верхняя планка)

Вот результаты моделей:

Результаты моделей для обработки человеческого языка для четырех подходов к обучению. Базовый подход (серый) - GPT-2, верхняя планка - GPT-4. <br />
Результаты моделей для обработки человеческого языка для четырех подходов к обучению. Базовый подход (серый) - GPT-2, верхняя планка - GPT-4.

Эксперимент показал следующее:

  • Обучение с человеческим учителем (т.е. текущий метод обучения моделей) показывает самый слабый результат. И его использования недостаточно для создания суперинтеллекта.
  • Сильная модель (GPT-4) существенно превосходит своих учителей.
  • Решить проблему обучения сильной модели на основе слабой возможно. Модель, обученная с помощью нового подхода OpenAI, постоянно превосходила своего слабого учителя (GPT-2). Модель не достигла результатов GPT-4 (референс для всех моделей), но показала более высокие результаты по точности. В эксперименте OpenAI удалось избавиться от 80% ошибок, которые были у GPT-2.

Суть подхода OpеnAI к решению проблемы слабого учителя. Обучением модели можно управлять с помощью стимулов (совсем как людей). И модель можно поощрять не повторять ошибки слабого учителя. Исследователи поощряли модель выбирать собственный вариант ответа, в котором она “была уверена” в нем, если он расходился с ответом обучающей модели GPT-2. Результаты исследования изложены в 50-страничной научной публикации.

Что дальше?

В OpenAI находят результаты очень обнадеживающими и воодушевляющими. Во-первых, это демонстрирует саму возможность такого подхода к обучению моделей. Во-вторых, это показывает, что сделать это очень просто. А значит, можно использовать слабых учителей для получения знаний от мощных моделей - по крайней мере в тех областях, которые нам важны. Это позволит сделать суперинтеллект управляемым и безопасным.

Поэтому OpenAI:

  • Открывает доступ к коду, облегчая проведение подобных экспериментов
  • Запускает грант на $10 млн для желающих исследовать проблему выравнивания ИИ, особенно - проблему обучения сильных моделей на основе слабых.

Пожалуйста, поддержите меня, поставьте лайк!

99
1 комментарий

Мы интересуемся этой темой не так живо, как вы.