Эволюция соцсетей: от Т9 до Chat GPT

Сейчас не умолкают новости о потрясающих достижениях языковых нейросетей, которые, как говорят, в ближайшее время сделают нас всех безработными. Но мало кто задумывается о том, как эти нейросети функционируют. Команда VolhinSoft с готовностью разъяснит вам все новшества и изменения.

ChatGPT — это как Т9 на вашем телефоне. Ученые называют их «языковыми моделями». Главная их задача — угадать последующее слово, которую будет идти после уже написанного текста.

В прошлом, на примере телефонов старых моделей, таких как Nokia 3210, использование T9 только ускоряло процесс набора текста на кнопочных аппаратах, предугадывая текущее введенное слово, а не следующее. Однако с развитием технологий в начале 2010-х годов, T9 стала способна предугадывать контекст, проставлять пунктуацию, предлагать альтернативные варианты следующих слов.

Как на клавиатуре смартфонов, так и в ChatGPT, применяется языковое моделирование. То есть вывод о последующем тексте делается на основе уже введенных данных. Для осуществления таких предсказаний языковые модели оперируют вероятностью появления определенных слов в последовательности.

T9 или ChatGPT — это просто собранные уравнения, которые стараются предсказать следующее слово на основе предыдущих, введенных в модель. Основная задача при обучении языковой модели на наборе данных — найти такие коэффициенты выбора, чтобы они действительно отражали определенную зависимость.

Искусственный интеллект — это модель с большим количеством параметров или ключ к успеху в создании уникальных текстов. Языковые модели без усилий создают длинные тексты, но делают это по принципу «слово за слово».

Парадоксальным образом, языковые модели демонстрируют свою способность к творчеству путем прогонки всех новых слов через предыдущий текст и созданные дополнения. Затем они выдают последующее слово, учитывая его влияние. В результате появляется уникальный и связный текст.

Во время генерации следующего слова, языковые модели выбирают его на основе вероятности. Слова должны соответствовать вероятностям, заложенным в модели во время ее обучения на большом объеме разнообразных текстов.

Одна модель может предложить различные варианты ответов на полностью идентичные запросы. Ранее ученые пытались убедить нейронные сети всегда выбирать «наиболее вероятное» следующее слово в качестве продолжения, что кажется логичным, но как показала практика, такие модели работают слабо.

Все области искусственного интеллекта (ИИ) были вынуждены активно адаптировать и использовать изобретение нейросети с названием Трансформер. Это было настолько значимым событием, что индустрия ИИ получила мощный толчок в развитии и смогла преодолеть застой, который был известен как «зима ИИ». Трансформер — это уникальный механизм вычислений, который просто принимает набор последовательностей данных на входе и выдает преобразованный набор последовательностей на выходе с использованием определенного алгоритма.

С помощью Трансформера можно решить практически любую задачу, так как текст, картинки и звук могут быть представлены в виде последовательностей чисел. Особенностью Трансформера является его удобство и гибкость, благодаря простым модулям блоков, которые легко масштабировать. В отличие от старых языковых моделей, которые требовали больших ресурсов и не справлялись с быстрой обработкой большого количества слов, нейросети трансформеры успешно выполняют эту задачу.

В 2019 году появилась новая языковая модель GPT-2, способная обрабатывать огромные объемы текстовых сообщений. Ее обучение не требует особой разметки данных, поэтому можно использовать любые тексты. GPT-2 основана на технологии Трансформеров, которая уже была использована в GPT-1. Однако GPT-2 оказалась гораздо более масштабируемой и эффективной моделью, способной работать с массивными объемами данных и моделями с большим числом параметров.

OpenAI решила проявить остроумие, они взяли идею с самого популярного англоязычного онлайн форума Reddit. Они скачали все гиперссылки из сообщений, которые имели более трех лайков. В результате было получено около 8 миллионов ссылок, а объем скачанных текстов составил 40 гигабайт.

Однако одного объема тренировочных данных недостаточно для создания выдающейся языковой модели. Даже если предложить пятилетнему ребенку перечитать все сочинения Шекспира и изучить лекции по квантовой физике Фейнмана, это не сделает его значительно умнее. Точно так же модель должна быть достаточно сложной и объемной, чтобы полностью усвоить такой объем информации.

В крайне упрощенной форме внутри любой языковой модели живут математические уравнения Y=k*x+b, где Y — следующее слово, вероятность которого мы пытаемся предсказать, а x - слова на входе, на основе которых делается предсказание.

Эти уравнения содержат около полутора миллиарда параметров, и если записать их все в файл и сохранить на компьютере, то это займет 6 гигабайт памяти. С одной стороны, это меньше, чем размер текстовых данных объемом 40 Гб, а с другой стороны, модели не нужно запоминать весь текст, им достаточно найти паттерны и правила, которые встречаются в текстах, написанных людьми.

В процессе обучения модели формируются эти особые характеристики, называемые также «весами» или «коэффициентами». Они сохраняются и больше никогда не меняются. Таким образом, при использовании модели каждый раз подставляются разные переменные (слова в тексте), но само уравнение (числовые коэффициенты при переменных) остается постоянным.

Чем более сложное уравнение заложено в модель (с большим количеством параметров), тем лучше модель предсказывает вероятности и тем более достоверным становится ее сгенерированный текст.

В 2020 году вышла GPT-3, которая поразила всех своими уникальными характеристиками. Эта модель имела невероятные 175 миллиардов параметров, что в 116 раз больше, чем предыдущая версия. К тому же, сама нейросеть весила огромные 700 гигабайт. Но не только это стало новым в GPT-3. Разработчики также значительно расширили набор данных для обучения модели. Теперь он составляет 420 гигабайт и включает в себя огромное количество книг, статей и информации с различных интернет-сайтов. Это позволяет модели делать еще более точные прогнозы и достигать отличных результатов в задачах генерации текстов, с которыми она раньше не сталкивалась или сталкивалась очень редко. GPT-3 - это настоящий гигант в мире искусственного интеллекта и открытие, которое перевернуло представление о возможностях моделей.

Описание проблемы и несколько примеров — вот все, что нужно для того, чтобы GPT-3 поняла, что от нее хотят. Однако никто никогда не обучал эту модель решать конкретные задачи. Тем не менее она легко превосходит многие специализированные модели, которые существовали до нее. Например, GPT-3 сразу начала лучше и проще переводить тексты с французского или немецкого на английский, чем другие нейросети, специально разработанные для этого. И самое интересное - GPT-3 сама научилась математике.

В начале 2022 года настало время для новых технологических достижений. InstructGPT — это новейшая разработка, которая ставит перед собой задачу научить робота действовать так же умно, как и человек. Хотя языковые модели не могут сравниться с человеческим интеллектом, иногда им нужно помочь, объяснив очевидные вещи. Например, фраза «давай подумаем шаг за шагом» может показаться необходимой подсказкой, хотя взрослые люди обычно справляются с задачами самостоятельно.

Однако, если модели смогут генерировать более подробные и релевантные инструкции без участия людей, и если они смогут предсказать, как бы поступил человек в подобной ситуации, это будет настоящим прорывом в развитии искусственного интеллекта. Возможно, InstructGPT сможет стать мощным инструментом, который упростит нашу жизнь и поможет нам достичь новых высот в технологическом прогрессе.

Изначально, GPT-3 не обладала такими способностями, так как ее обучили просто предсказывать следующее слово в огромном объеме текстов из Интернета, где содержится множество разнообразной информации, не всегда полезной. Однако, исследователи столкнулись с проблемой, так как свойства модели, такие как точность и полезность, часто противоречат безопасности и неядовитости.

В поисках решения, исследователи решили дать модели большое количество обратной связи. Они дообучили GPT-3, используя фидбек от живых людей, чтобы оценить соответствие ответов нейронной сети их ожиданиям, учитывая заданный запрос. Куча людей проводила оценку множества ответов модели, чтобы максимизировать ее оценку от живого человека.

Весь процесс обучения модели можно представить как малую долю, не более 1%, от общего процесса. Но именно эта последняя фаза, «дообучение на живых людях», является ключевым моментом, который придал последним моделям GPT удивительные возможности. Весьма интересно, что GPT-3 уже обладала всем необходимым знанием: понимание различных языков, знание исторических событий, умение распознавать стили разных авторов и т.д. Однако только благодаря обратной связи от людей модель научилась использовать эти знания именно так, как мы считаем правильным. В некотором смысле, GPT-3.5 - это модель, воспитанная обществом.

В ноябре 2022 года мир был потрясен появлением ChatGPT, нового чуда технологий. Это произошло всего через 10 месяцев после InstructGPT/GPT-3.5, его предшественницы. Несмотря на то, что с технической точки зрения нет значительных отличий от InstructGPT, ChatGPT стал мгновенным хитом. Основные технические характеристики, такие как архитектура и количество параметров, остались практически неизменными по сравнению с предыдущей версией.

Главный секрет успеха ChatGPT заключается в его удивительном интерфейсе. В отличие от InstructGPT, который можно было использовать только через специальный API интерфейс и доступен он был только для айтишников, ChatGPT стал доступен обычным людям. Это простой и удобный инструмент, который можно использовать без особых навыков программирования.

Привычный интерфейс «диалогового окна» был назначен для ChatGPT, точно так же, как в знакомых всем мессенджерах. К тому же, был предоставлен публичный доступ для всех желающих, и люди начали активно общаться с нейросетью, делать скриншоты и делиться ими в социальных сетях.

Неудивительно, что ChatGPT побил все рекорды по привлечению новых пользователей, привлекая 1 миллион пользователей всего за первые пять дней после релиза, а за два месяца их число превысило 100 миллионов.

Эволюция соцсетей: от Т9 до Chat GPT

T9 или загадочная магия

Вероятность слов в нейросети

Творчество и языковые модели

Трансформация языковых моделей

GPT-2

Модели «Plus Size»

GPT-3

InstructGPT

ChatGPT