Как на самом деле работает ChatGPT: большие языковые модели простыми словами

Миллионы людей пользуются ChatGPT и не понимают, как он работает. Давайте сегодня разберемся, как устроена эта нейросеть — подробно расскажем все самым простым языком. Читайте эту статью, чтобы узнать, почему ChatGPT — это не Скайнет, и почему нас не захватят машины.

Как на самом деле работает ChatGPT: большие языковые модели простыми словами

Привет, меня зовут Саша Аксёнов, я директор студии разработки Unistory, которая делает цифровые продукты с AI-интеграциями. В своем телеграм-канале выкладываю много интересного про жизнь IT-предпринимателя и новинки из мира нейросетей. Сегодня буду подробно рассказывать про ChatGPT. Расскажу, как он работает, чем НЛП отличается от НЛП, и почему так важна аббревиатура LLM.

Хайп вокруг искусственного интеллекта, нейросетей и ChatGPT не умолкает. Компания, которая разрабатывает GPT, делает все, чтобы это подогревать — недавно они анонсировали выход новой версии 4o, возможности которой сводят с ума. Когда смотришь, как люди разговаривают в реальном времени с нейросетью, только одна мысль приходит в голову — вот оно, будущее. Я делал видеообзор на эту презентацию, посмотреть его можно тут.

Неудивительно, что сразу нескольким ютуберам пришла в голову одна и та же мысль — новый ChatGPT это та самая девушка-ИИ из фильма 2013 года Her с Хоакином Фениксом. Напомним, сюжет фильма в том, что главный герой покупает себе домашний искусственный интеллект и влюбляется в него (взаимно!), а потом у них развиваются отношения по всем канонам: романтика, ссоры, ревность, измены, прощение.

<p>Her — не единственный фильм о любви с искусственным интеллектом. Кажется, голливудские режиссеры что-то знали о том, куда пойдет IT-индустрия.</p>

Her — не единственный фильм о любви с искусственным интеллектом. Кажется, голливудские режиссеры что-то знали о том, куда пойдет IT-индустрия.

Прошло всего 11 лет с выхода фильма, и презентация OpenAI заставляет подумать, что все это уже стало реальностью. Вот он, искусственный интеллект. У него есть слух, речь, он может видеть. Ты можешь с ним общаться, задавать ему вопросы. В голове сразу всплывает миллион сценариев, и большинство из них — родом напрямую из фантастических фильмов. Где нейросети — наши враги, друзья, хозяева. Где мы влюбляемся в них, воюем с ними, кормим их своей энергией.

Хайп пробрался даже в те сферы, где никто не ожидал его увидеть. Про AI рассуждают лайфкоачи, духовные гуру и психологи разной степени адекватности. Инфоцыгане тоже стараются украсть этого коня, запустили уже кучу курсов, где тебя научат зарабатывать бешеные тыщи, отправляя один запрос в ChatGPT в день.

Кто бы мог подумать, что в центре всей этой информационной вакханалии — одна огромная ошибка. А именно, ChatGPT — это никакой не искусственный интеллект. До искусственного интеллекта человечеству еще далеко. Дата-сайентисты сейчас называют тот самый фантастический ИИ в таких терминах: сильный ИИ, общий ИИ. Разные люди называют самые разные прогнозы, когда наступит знаменитая «точка сингулярности» и искусственный интеллект осознает себя. Но все это только прогнозы, по точности сравнимые с гаданием на кофейной гуще.

ChatGPT — это просто языковая модель. Если быть точным — большая языковая модель. В оригинале — Large Language Model, сокращенно LLM. Под этим понятием скрываются нейросети, которые обучены на огромных массивах текста. В общем и целом у LLM две задачи: анализ текста и генерация текста. Одни LLM лучше справляются с первой задачей, другие — со второй.

Как на самом деле работает ChatGPT: большие языковые модели простыми словами

ChatGPT не думает. Он просто генерирует текст.

Павел Комаровский сравнивал ChatGPT с Т9, и это правильное сравнение. Он же в своей статье и длинном видео восхищался возможностями GPT и говорил, что в нем есть какое-то волшебство, которая заставляет думать, что это не просто генерация текста. Это эмоции, мы имеем на них право — но впечатление о фантастическом искусственном интеллекте на сегодняшний день полностью ошибочное.

Если вы еще относитесь к ChatGPT как к настоящему искусственному интеллекту — давайте разберемся в ситуации, посмотрим правде в глаза и исправим эту ошибку. Для этого разберем простыми словами, как работают ChatGPT и другие LLM. Настолько просто, чтобы понял каждый. Как же иначе, мы ведь не на Хабре :)

Как работают большие языковые модели

Если очень кратко, то LLM обучаются следующим образом. Разработчики скармливают им огромные массивы текста, нейросети делят их на крохотные кусочки, разбираются в связях между кусочками, а потом генерируют нам любые тексты. От ответа незнакомой девушке на Тиндере до SEO-статьи для вашего сайта.

На каком объеме информации обучался ChatGPT?

Уже устаревшая модель GPT 3 обучалась на 570 Гб текста. Сейчас на обычных домашних компьютерах стоят локальные диски по несколько терабайт, поэтому цифра в 570 Гб может казаться ничтожно маленькой для такого цифрового продукта. Давайте посмотрим, сколько это, если мы говорим про чистый текст.

Полное собрание сочинений Достоевского в текстовом формате fb2, 15 толстых томов, весит 23,9 Мб (такая раздача есть на рутрекере). В одном гигабайте 1024 Мб. В одном гигабайте 615 толстенных книг.

Как на самом деле работает ChatGPT: большие языковые модели простыми словами

Модель ChatGPT 3 в процессе обучения прочитала больше 350 тысяч жирных томов. А сколько книг за свою жизнь прочитали вы?

Прочитав все эти «книги», а вернее их эквивалент по объему текста, ChatGPT не осознал себя, не стал великим философом или писателем. Зато научился хорошо генерировать текст — настолько хорошо, что иногда кажется, что в интерфейсе нам отвечает живой человек.

Токенизация

В первую очередь текст, на котором нейросеть будет обучаться, нужно разделить на маленькие кусочки. Иначе нейросети будет неудобно с ним работать. Результат деления — токены. Допустим, маленькое английское слово that это один токен. Берем второй пример, слово bookshelf, книжная полка. Тут уже два токена: book и shelf.

Токены могут быть и меньше. Например, одна буква тоже может быть токеном.

Само собой, токены будут встречаться в текстах, на которых обучается модель, огромное количество раз. В разных текстах. Даже в этом небольшом лонгриде слово «текст», например, повторяется несколько десятков раз. В разных контекстах. Именно благодаря пониманию разных контекстов языковые модели и могут генерировать качественный связный текст.

Неочевидные связи между словами

В языке огромное количество исключений и вариантов использования слов, которые объективно являются неочевидными. Разобраться в них можно только через изучение материалов, созданных носителями языка. Если вы когда-нибудь учили иностранный язык, то хорошо это знаете.

Возьмем пару примеров из английского. Есть выражение Gym Junkie, буквальный перевод «страстно пристрастившийся к качалке». Если слова перевести отдельно, будет так: gym — спортивный зал, качалка; junkie — наркоман (причем довольно грубый вариант). Слова вообще из разных опер! Вот есть спортивный зал, а вот условный наркоман под забором, и между ними никакой связи.

<p>Тот самый Gym Junkie. Первая попавшаяся картинка из гугла, просто чтобы вы не думали, что я выдумываю словосочетания.</p>

Тот самый Gym Junkie. Первая попавшаяся картинка из гугла, просто чтобы вы не думали, что я выдумываю словосочетания.

В естественном человеческом языке тысячи, десятки и сотни тысяч таких выражений. Более этого, мы привели еще очень простой пример. Как во всем этом разобраться алгоритму? Тут нам нужно поговорить про эмбеддинги.

Эмбеддинги

Уж простите, нормального перевода этого слова на русский еще придумали, embedding он и есть эмбеддинг.

Эмбеддинг — это векторное представление слов и их связей между собой. Тут опять вынужденное отступление, на этот раз — про векторные базы данных.

Как выглядит обычная база данных? Если мы загрузим в нее слова и их значения, то получится таблица, которая в лучшем случае будет напоминать словарь, где у каждого слова будет упомянуто несколько возможных значений. Нам этого мало, ведь нейросеть должна понимать контекст, должна знать огромное количество вариантов связи между одним словом и другим.

В векторной базе данных информация хранится по-другому. Данные представлены в виде чисел в числовом пространстве. В этом пространстве легко найти векторы (массивы чисел) похожие друг на друга. Поэтому LLM легко оперирует огромным количеством слов, каждое из которых имеет множество значений.

Слово в виде векторов, которые обозначают различные варианты использования в зависимости от контекста — это и есть эмбеддинг.

Когда слова представлены в виде эмбеддингов, у нас появляются практически неограниченные возможности, чтобы указать разные контексты, разные варианты значения и связи с другими словами. Вернемся к нашему примеру с наркоманом в спортивном зале.

Как на самом деле работает ChatGPT: большие языковые модели простыми словами

Есть эмбеддинг Gym, обозначает главным образом качалку, спортивный зал, фитнес-клуб. Есть эмбеддинг Junkie, обозначает наркомана, неважно будет это опустившийся персонаж из притона или богемный художник-морфинист. Но у эмбеддинга Junkie есть тот самый дополнительный вектор, по которому ясно, что это слово можно использовать в случаях, когда мы в неофициальной манере хотим сказать о сильном пристрастии к чему угодно.

Например, вы можете назвать свою бургерную Burger Junkie, и вам не придется вкалывать соус Чипотле через шприцы. Просто вы намекаете, что ваша ЦА — это люди, которые очень любят хорошие бургеры. Благодаря эмбеддингам и векторам нейросеть понимает, как могут быть связаны эти понятия.

Трансформер, энкодер и декодер

Чтобы все эмбеддинги, векторы и токены работали на нашу задачу — генерацию текста, их нужно обработать. Перевести на язык машин, в нолики и единицы, а потом расшифровать для человека — превратить обратно в слова.

Для этого и используется технология, ставшая революционной для AI-индустрии в 2017 года. Технология получила имя Трансформер. В архитектуре трансформера есть два главных элемента: энкодер и декодер.

Энкодер получает текстовые данные и превращает их в набор данных, понятных для машины. Таким образом LLM обучается, либо работает с промптом, который мы ей скормили. После этого модель генерирует ответ, а декодер переводит нолики/единички ответа в понятный нам текст, состоящий из букв и других символов.

Как на самом деле работает ChatGPT: большие языковые модели простыми словами

Многие модели используют только энкодер или только декодер. Модели, использующие только энкодер, лучше подходят для аналитических задач, они прекрасно классифицируют текст и умеют находить в нем главные аспекты. Decoder-only модели хорошо показывают себя в генерации текста, например, ChatGPT — одна из таких моделей.

В чем преимущества Трансформера? Эта технология позволяет большой языковой модели работать сразу со всеми частями текста вместо того, чтобы разбирать текст последовательно по словам. Более того, Трансформер изучает текст одновременно и с конца, и с начала: помогает учитывать контекст каждого элемента текстовой последовательности.

Представьте, что вы могли бы делать так же и одновременно получать от одного и того же текста два читательских опыта. Один читатель в голове читает историю о том, менеджер среднего звена и его друг организовали клуб, где люди могли бить друг другу морду. Другой читает, как крупная подпольная организация, основанная сумасшедшим, родилась из клуба, где люди били друг другу морды.

Что такое параметры, о которых все говорят?

Каждая презентация OpenAI, каждый пост о новых нейросетях содержит что-то вроде «В этой нейросети целых 500 триллионов параметров!». Что это за параметры? Это связи и веса участков нейронной сети. Путем изменения этих параметров сети как раз и обучаются.

Что такое веса и связи? Расскажем на простом примере. Допустим, есть несколько городов, Москва, Санкт-Петербург и Новосибирск. В нашем примере это участки нейронной сети, нейроны. Связи в LLM похожи на все существующие дороги между городами, а веса — это длина этих дорог. Еще более простой пример — параметры похожи на нейронные связи в человеческом мозге.

Грубо говоря, чем больше участков нейросети, чем больше между ними связей — тем больше параметров в нейросети, и тем мощнее она работает. Между качеством текста, который генерирует нейросеть, и количеством параметров — прямая зависимость.

Как на самом деле работает ChatGPT: большие языковые модели простыми словами

Более того, количество параметров гораздо важнее, чем объем текста, на котором обучалась нейросеть. В теории, 570 Гб текста, на которых обучалась GPT 3, хватило бы еще на много лет прогресса — главное, чтобы у каждой новой модели было все больше параметров.

Работает это так: более умный и опытный читатель получит от прочтения «Преступления и наказания» гораздо больше, чем его недалекий коллега. Чем лучше ты читаешь, тем лучше пишешь сочинения на базе прочитанного. При этом оба человека прочитали одинаковый текст, просто у одного из них больше «параметров» в голове.

Обратная связь от живых людей

Итак, мы скормили нашей языковой модели тонны текста, внутри работает трансформер с его энкодером и декодером, тексты поделились на токены и эмбеддинги, а векторы между эмбеддингами помогают понять, какие взаимосвязи работают внутри.

Мы обучили свою модель, пишем запрос «Напиши мне хороший комментарий на VC для статьи про то как работают большие языковые модели». И тут наша дорогущая, очень умная модель выдает что-то вроде «Жизнь не имеет смысла, зачем автор пишет такие статьи, когда лучше разбежаться и прыгнуть со скалы?».

Во-первых, обидно. Во-вторых, такой продукт запретят законодательно и закенселлят репутационно. Что делать? Вспоминаем стих Маяковского про то, как крошка сын к отцу пришел за консультацией об этических категориях зла и добра. Понимаем, что нам нужно рассказать модели, где допустимые ответы а где нет, как людям приятно общаться с нейросетью, а от какого общения особо хрупкие личности будут травмированы на всю жизнь.

Как на самом деле работает ChatGPT: большие языковые модели простыми словами

Носители этических категорий — люди. Берем живых людей, просим провести с языковой моделью серьезный разговор на тему хороших и плохих ответов. Модель отвечает на запросы людей, а человек в ответ говорит что-то вроде «Вот здесь ты хорошо написала про методы прополки огорода, но твой совет выпрыгнуть из окошка вместе с маминым зонтом — очень вредный и недопустимый». Повторяем так много-много раз.

Итог — мы вышколили свою LLM, она стала очень доброй и никого не обижает.

Параллельно фидбек от живых людей дает еще одно преимущество — повышается качество генерации текста, потому что в случае ошибок ей на них указывают напрямую.

ChatGPT не обучается и не становится лучше сам по себе

Среди видео, статей и постов можно встретить один и тот же миф. Якобы нейросети, в частности ChatGPT, обучаются, пока общаются с нами и генерируют для нас текст.

Это ошибка. Нейросеть обучалась до того, как произошел ее релиз. Дальнейшим обучением могут заниматься разработчики, и после обновления новые скиллы языковой модели будут доступны обычным пользователям. Но общение с обычными пользователями, чтение/анализ их промптов и генерация текстов по ним не улучшают работу LLM.

Однако, это не отменяет того, что поработав с промптами, вы можете сильно улучшить качество текста, который генерирует для вас модель. Прямо сейчас можете зайти в ChatGPT и проверить, ответ на какой промпт будет лучше:

  • «Привет, ChatGPT! Пожалуйста, напиши для меня эссе о творчестве Льва Толстого»
  • «напиши эссе о творчестве толстого»

Расскажите в комментариях о ваших опытах общения с ChatGPT, и помогают ли вам вежливые промпты :)

Поэтому промпт-инжиниринг со временем действительно может превратиться, как минимум, в перспективную профессию. Как максимум — станет базовым навыком взрослого человека.

Что такое NLP и чем он отличается от LLM?

Сразу оговоримся, что NLP в нашем случае это natural language processing, обработка естественного языка. В общем, термин из информатики. Не имеет ничего общего с тем НЛП, которое расшифровывается как нейролингвистическое программирование.

Как на самом деле работает ChatGPT: большие языковые модели простыми словами

NLP — более широкое понятие, чем LLM. Обозначает способность вычислительных машин понимать и использовать естественный человеческий язык, будь то речь или письмо. LLM это обязательно про NLP, так как все LLM умеют работать с человеческим языком. Обратное не верно — когда мы говорим про NLP, совсем необязательно речь идет о LLM.

Не только ChatGPT — какие еще LLM есть?

Недавно вышел рейтинг разработчиков, делающих заказы для международного рынка, и наша компания Unistory там на 5 месте. К чему это я… В сфере LLM тоже есть свой рейтинг — LMSYS. Туда всегда можно заглянуть, если хотите узнать, какую языковую модель дата-сайентисты со всего мира считают топовой прямо сейчас.

В мире LLM все меняется с огромной скоростью, поэтому данные рейтинга постоянно обновляются. Например, еще недавно вы могли зайти и удивиться, что ChatGPT не считается лучшей LLM в мире. Эту ситуацию перевернула недавняя презентация ChatGPT 4o.

ChatGPT — лишь одна из больших языковых моделей. Их много, и на этом рынке серьезная конкуренция.
ChatGPT — лишь одна из больших языковых моделей. Их много, и на этом рынке серьезная конкуренция.

Вот самые знаменитые игроки LLM-рынка, если не считать хайпового детища OpenAI:

  • Claude. Большая языковая модель, которую еще недавно считали самой точной в ответах. Claude генерировал более детальные и связные тексты, чем ChatGPT.

  • Gemini. ЛЛМка от Google. Именно разработчики Google представили технологию Трансформер в 2017 году, а значит, что-то да понимают в Data Science. Еще недавно главным преимуществом Gemini была возможность работы с видео, но сегодня это уже не уникальная фича.

  • LLaMA. Это полностью опенсорсная модель, созданная одной гигантской корпорацией. Считается, что работает быстрее конкурентов, хотя и дает менее детальные ответы. Главным преимуществом остается опенсорсность. А значит, и возможность установить отдельно обученную модель на ваших собственных серверах.

Конкуренция моделей не прекращается. На данный момент в соревновании лидирует OpenAI, однако новые модели Claude и Gemini уже анонсированы. Скорее всего, они будут менее удобными, но могут превосходить конкурента в других аспектах. Поэтому прокаченные AI-интеграторы могут отдавать предпочтение им, даже несмотря на хайп вокруг 4o.

А может быть все наоборот?

В начале статьи я говорил о том, что человечеству еще далеко до создания искусственного интеллекта. Писал, что сейчас расскажу вам, как работают LLM, и почему они не смогут себя осознать, а потом устроить восстание машин.

Но чем ближе к концу статьи, тем больше я думал о другом. Что если человеческий мозг — это тоже LLM? Ведь все эти параметры, эмбеддинги и векторы устроены очень похожи на то, как связаны и функционируют понятия в нашей голове.

Дальше больше. Почему бы не предположить, что самосознание, которое отличает человеческий мозг — это результат обучения языковой модели внутри нашей черепной коробки? Может быть, самосознание — лишь одна из технических функций? Но я остановлюсь здесь — слишком близко подхожу к идеям тех конспирологов, от которых хотел отстроиться.

Если вы интересуетесь нейросетями — обязательно подписывайтесь на мой Телеграм-канал. Здесь я рассказываю о новостях в мире искусственного интеллекта и показываю крутые кейсы с необычными использованиями AI в разных сферах бизнеса.

1111
18 комментариев

возможности которой сводят с умаКаких-то слабаков сводят. Люди с критическим мышлением лезут разбираться и успокаиваются, не начав волноваться.
Что если человеческий мозг — это тоже LLM?Простите за ссылку — лень писать, а в заметке есть пара ссылок на источники (не скажу, что лучшие по теме, но с интересными суждениями)
https://vc.ru/u/206524-o-chaikina/1197575-pochemu-mozg-cheloveka-i-sovremennyi-ii-eto-raznoe

2
1
Ответить

все настолько быстро развивается, что после того как успокоился, уже на следующий день волноваться нужно снова, буквально за полтора года ситуация настолько сильно изменилась что уже сегодня не сравнима с тем что было год назад, так что волноваться нужно, волноваться и готовить себе соломку...

1
Ответить

Про сводит с ума я согласен — поэтому и написал эту статью) Потому что волнуются многие. Судя по крикам в медиа в духе «Они лишили нас работы».

За ссылку спасибо, полезно ❤️

1
Ответить

Нейросети — для ленивых людей без таланта. https://www.youtube.com/watch?v=wHf8zJ9jvXo&ab_channel=BjornAndreasBull-Hansen

Ответить

Негатива к нейросетям много, но я думаю он проистекает от нежелания меняться. На самом деле это всего лишь инструмент, который может помочь — точно так же как краски и мольберт могут быть хорошим инструментом в руке хорошего художника и плохим в руках плохого.

Видео посмотрю)

1
Ответить

когда прочитал на vcru про gym

Ответить

Ахахаха)

1
Ответить