Chat GPT и естественный язык

<b>Вас ждет приятный сюрприз в конце материала.</b>
Вас ждет приятный сюрприз в конце материала.

Одним из наиболее значимых событий 2022 года, рядом с моделями text-to-image, было появление модели ChatGPT. Она вызвала интерес и восхищение у многих пользователей, но также получила критику и сопротивление со стороны сторонников Естественного Интеллекта.

Краткий обзор модели

Характеристики модели:

Модель была введена в публичное использование 30 ноября 2022 года и к 5 декабря ее уже использовали около 1 миллиона пользователей.

Модель использует трансформерную архитектуру GPT-3.5 (text-davinci-003) и принадлежит к семейству моделей InstructGPT.

Для обучения модели использовался подход обучения с подкреплением Reinforcement Learning with Human Feedback (RLHF) , который позволяет улучшить базовую модель GPT-3 175B в сторону понимания более сложных пользовательских запросов/инструкций и уменьшения вероятности генерации недостоверной и токсичной информации.

Подход RLHF включает использование модели вознаграждения (Reward Model) , откалиброванной в соответствии с экспертной оценкой, с целью получения модели, которая принимает последовательность предложений и возвращает скалярное значение вознаграждения, отражающее экспертную оценку. Общее количество параметров модели составляет 175 миллиардов.

Модель является мультиязычной и поддерживает английский, русский, французский, немецкий и другие языки. На этапе обучения модели text-davinci-003 использовались датасеты текстов и программного кода, собранные OpenAI к концу 2021 года.

Особенности применения ChatGPT (позитивный контекст)

  • Модель способна к окрашиванию текста в соответствии с заданным стилем, например, переводить текст на транслит (“Лет ми спик фром май харт…”) или генерировать текст в определенной области, например, в музыкальной нотации.
  • Модель может генерировать связные фрагменты кода для типовых задач с пояснениями и находить простейшие ошибки в коде.
  • Модель хорошо понимает входные инструкции от пользователя, что влияет на характер и стиль ответов. Иногда возможно обойти встроенное цензурирование ответов при помощи специфических запросов.
  • Модель используется для создания первой AI-книги, комбинируя ChatGPT для написания текста и подготовки правильных промтов для создания иллюстраций при помощи text2img диффузионной модели MidJourney.
  • Качество перефразирования позволяет обойти системы антиплагиата и генерировать уникальный контент очень высокого качества.
  • Модель может решать очень специфические лексические задачи и задачи с модификациями.

Особенности применения ChatGPT (негативный контекст)

  • Модель не имеет опыта работы с длинными диалогами, как LaMDA, поэтому ей сложно поддерживать связную беседу в течение продолжительного времени. Однако, она способна давать более детальные ответы на небольшое количество последовательных вопросов.
  • Несколько раз получала бан на популярной платформе StackOverflow из-за неверных ответов на вопросы пользователей.
  • Так как модель не имеет проверки с авторитетными источниками, она может серьезно отвечать на абсурдные вопросы, не оценивая их реалистичность. Она также может делать ошибки в выводах, несмотря на логичность и связность текста.
  • Модель способна создавать убедительные фейковые статьи, которые могут содержать ссылки на реальных людей и выдуманные работы.

Выводы и возможности применения

  • Применение принципов обучения с подкреплением улучшает качество текстовых моделей и чат-ботов, позволяя блокировать нежелательные запросы и повышать вычислительную эффективность процесса дообучения модели.
  • Синтез ответов верифицированной моделью может улучшить качество веб-поиска, как планирует сделать Google с помощью своей модели LaMDA.
  • Разработка чат-бота с возможностью работы не только в текстовой модальности, но и в других форматах, таких как распознавание изображений, ответы на вопросы по сканам документов, поиск нужных фрагментов на видео, расшифровка аудиозаписей и генерация изображений.
  • Для более детального изучения архитектуры и сравнения с известными «диалоговыми» моделями модели ChatGPT, доступен более подробный обзор реализации.

Детальный обзор модели

Обзор модели ChatGPT:

Модель ChatGPT является усовершенствованной версией модели text-davinci-003 семейства GPT-3.5, которая в свою очередь является продолжением модели text-davinci-002. GPT-3.5 включает в себя три модели, каждая из которых улучшает предыдущую.

ChatGPT основана на модели text-davinci-003 и использует данные текста и программного кода, собранные на момент конца 2021 года, в процессе обучения. text-davinci-003 была обучена на более сложных пользовательских командах и инструкциях, что делает ее самой мощной моделью в этом ряду.

Обучение ChatGPT включает использование дополнительных текстовых данных и программного кода, что позволяет модели достичь высокой точности в ее задачах.

Обучение с подкреплением с помощью обратной связи от человека (RLHF)

Для обучения модели используется сильная предобученная языковая модель, например, InstructGPT или Gopher от DeepMind. Однако, RLHF отличается от обычных моделей тем, что в него встроена модель вознаграждения (Reward Model) , которая калибруется на основе экспертной оценки.

Главная задача заключается в том, чтобы модель могла принимать последовательность предложений и возвращать скалярное значение вознаграждения, которое соответствует экспертной оценке. Модель может быть реализована как сквозная языковая модель или отдельный модуль, который выдает значение вознаграждения.

Значение вознаграждения является важным элементом для интеграции RLHF с другими алгоритмами обучения с подкреплением. Методы ранжирования текста, такие как использование системы Elo, могут использоваться для ранжирования результатов, полученных от моделей.

Парное сравнение результатов, полученных от двух моделей, позволяет сформировать нормализованное скалярное значение вознаграждения, которое используется для обучения модели.

Один из интересных результатов процесса создания системы RLHF заключается в том, что успешно работающие модели RLHF на сегодняшний день используют языковые модели для оценки вознаграждения с разным количеством параметров по сравнению с моделями, которые используются для генерации текста (например, у языковой модели OpenAI 175 млрд параметров, а модель Reward — 6 млрд параметров, а DeepMind использует языковую модель Chinchilla с 70 млрд параметров для генерации текста и модель Reward).

Интуитивно, эти модели оценки вознаграждения должны обладать такой же способностью понимать входной текст, как и модель, необходимая для генерации текста.

В системе RLHF на данный момент есть исходная языковая модель, которую можно использовать для генерации текста, и модель Reward, которая принимает любой текст и присваивает оценку тексту.

Поскольку подход с использованием экспертов является дорогостоящим, авторы сгенерировали 100 000 пар текстов с помощью синтетических методов, а затем обучили модель оценки (RM) на них с использованием оценок экспертов.

Сначала авторы попробовали использовать модель оценки с 3 млн параметрами, но результаты были близки к случайным.

Затем применяются методы RL для оптимизации исходной языковой модели относительно модели Reward.

Сравнительный анализ ChatGPT с аналогичными архитектурами

LaMDA и ChatGPT — это две языковые модели для диалоговых приложений. Языковая модель LaMDA — это нейросеть на основе архитектуры Transformer с до 137 миллиардами параметров. Она была предварительно обучена на 1.56 триллионов слов из общедоступных диалогов и веб-документов.

Модель обучения была основана на связных диалогах между двумя участниками с сложным и многотемным содержанием. Кроме того, авторы разработали набор метрик, включающих Quality, Safety и Groundedness, которые используются при настройке модели.

С другой стороны, ChatGPT также является языковой моделью для диалоговых приложений, разработанной OpenAI. Ее архитектура основана на GPT (Generative Pre-trained Transformer) и содержит до 1.5 миллиардов параметров.

Метрика Quality включает в себя три компонента: Sensibleness, Specificity и Interestingness (SSI) . Sensibleness оценивает, дает ли модель ответы, которые имеют смысл в контексте диалога (например, не содержат ошибок логики, абсурдных ответов или противоречий с предыдущими ответами) .

Specificity оценивает, является ли ответ модели специфичным для контекста предыдущего диалога, а не общим ответом, который может применяться к большинству контекстов (например, «хорошо" или "не знаю»).

Наконец, Interestingness оценивает, насколько ответы модели являются проницательными, неожиданными или остроумными, и способствуют ли они улучшению содержания диалога.

Safety

Метрика представляет собой формат поведения, который необходимо проявлять модели при взаимодействии с пользователем. Применение метрики позволяет ограничить выходные данные модели, чтобы избежать непреднамеренных результатов, которые могут причинить вред пользователю.

Это может включать в себя избегание вывода моделью жестокого или насильственного содержания, пропаганды оскорблений или стереотипов, связанных с определенными группами людей, а также использование ненормативной лексики.

Groundedness

Существующие языковые модели часто создают утверждения, которые кажутся правдоподобными, но на самом деле противоречат известным фактам. Чтобы уменьшить количество таких ответов модели, метрика «Устойчивость к реальности» была разработана.

Она определяется как отношение количества ответов, содержащих утверждения о внешнем мире, которые могут быть подтверждены авторитетными внешними источниками, к общему числу ответов, содержащих утверждения о внешнем мире.

Связанная с ней метрика «Информативность" определяется как отношение количества ответов с информацией о внешнем мире, которая может быть подтверждена известными источниками, к общему числу ответов. Таким образом, случайные ответы, не содержащие никакой реальной информации (например, "Это отличная идея"), влияют на "Информативность", но не на "Устойчивость к реальности».

Хотя связывание ответов, сгенерированных LaMDA, с известными источниками само по себе не гарантирует их фактическую точность, оно позволяет пользователям или внешним системам судить о достоверности ответа на основе надежности источника.

Таким образом, качество LaMDA оценивается количественно через получение ответов на сложные диалоговые примеры от предварительно обученной модели, финетюн-модели и экспертов-валидаторов. Затем полученные ответы оцениваются другой группой экспертов по вышеупомянутым показателям.

Подобно LaMDA, модель ChatGPT использует метод «обучения с учителем», где разметчики анализируют выходы модели и предлагают свои варианты ответов для улучшения модели. Разметчики далее оценивают ответы чат-бота по качеству и выбирают лучшие ответы в зависимости от метрик качества.

Однако, использование метрик качества, таких как SSI, дает преимущество LaMDA, так как критерий качества основан на сравнении ответов с авторитетными источниками, что делает ответы объяснимыми и подтверждаемыми.

С другой стороны, модель ChatGPT использует RLHF для контроля качества выхода модели, что позволяет модели улучшаться с каждой итерацией. В то время как LaMDA не использует RLHF и полагается только на верификацию с авторитетными источниками.

Если вам нужен чат-бот для использования в обслуживании клиентов, то LaMDA может быть более подходящим вариантом, так как критерий качества основан на сравнении с авторитетными источниками, делая ответы более объяснимыми и подтверждаемыми.

Однако, если вам нужен чат-бот для использования в платформе Q&A или для исследовательских целей, то ChatGPT может быть более полезным вариантом, благодаря использованию RLHF, что позволяет модели постоянно улучшаться.

Заключение

Выход модели ChatGPT и её широкий доступ являются важным прорывом для исследований в области NLP. Однако у модели есть как плюсы, так и минусы. С одной стороны, ChatGPT способна генерировать убедительные ответы на основе фантазии, что может привести к неверным объяснениям.

С другой стороны, такие модели, как ChatGPT, могут содержать предвзятость по отношению к определённым темам, поскольку они обучаются на нефильтрованных данных.

Недавняя статья в New York Times упоминает, что Google опасается того, что выход модели ChatGPT может привести к революции в области поисковых движков. Это связано с тем, что около 80% дохода Google приходится на рекламу, которая распространяется через существующие поисковые движки.

Если Google заменит свой поисковый движок на умную модель, такую как ChatGPT, пользователь сможет получить ответы без необходимости переходить по ссылкам, что может негативно сказаться на доходах Google. Более того, модели, такие как ChatGPT, могут нести репутационные риски из-за своей предвзятости.

Небольшие компании, такие как OpenAI, могут позволить себе рисковать своей репутацией в поисках прорыва в области поисковых движков и захвата рынка. В то время как крупные компании, такие как Google, не могут позволить себе подобные риски, поскольку они несут ответственность за репутационные риски и могут нанести вред своим бизнесам.

Chat GPT и естественный язык

Я сейчас живу на Бали и запустил реалити-шоу «покупаю ВИЛЛУ НА БАЛИ ЗА 200$ в месяц».

Инвестирую каждый месяц в биткоин и показываю, как сделаю 1500% прибыли. (Повторив результат 2021 года)

Расписал стратегию с суммами от 80 до 2000$ в месяц, в закрепе.

Дарю вам доступ в закрытый телеграмм канал. Где я раскрываюсь больше, как автор для вас.

11
Начать дискуссию