От генерации текстов до создания миров в метавселенных: как ИИ становится главным источником контента

За последние годы ИИ превратился из чисто академической деятельности в силу, влияющую на жизнь миллионов людей каждый день. Появились сервисы, которые рисуют удивительные картины, пишут код за разработчиков и создают тексты вместо копирайтеров.

Специально для тех, кто глубоко не погружен в тему развития нейронных сетей, но хотел бы узнать о ней побольше, Михаил Степнов, руководитель RnD-центра Big Data МТС, рассказывает, что привело к революции в искусственном интеллекте и в какую сторону будет развиваться ИИ в ближайшие годы.

От генерации текстов до создания миров в метавселенных: как ИИ становится главным источником контента

Прорыв трансформеров

Машинное обучение и Deep Learning быстро развивались в 2010-е годы, появлялось все больше новых возможностей и инструментов для нейросетей. Однако новым качественным прорывом в области текстовых моделей стало появление трансформерной архитектуры в 2017 году.

Трансформерные сети умеют обрабатывать информацию не по порядку и с узким «окном» контекста, как это делают другие методы, а учитывать весь контекст предложения (например, BERT), что дает возможность «видеть» материал полностью. Нейросети преобразовывают входящую информацию в некий вектор в N-мерном пространстве, где «проявляются» (за счет близости в данном пространстве) взаимосвязи на основе контекста их употребления. Если слово встречается в огромном количестве текстов в определенном контексте, то модель его запоминает и позволяет подбирать правильные слова и предложения.

Языковая модель-энкодер BERT от Google стала одной из первых систем на основе трансформерной архитектуры, которая повсеместно используется для решения бизнес-задач. Сейчас это стандарт для диалоговых ассистентов и чат-ботов. Подобных решений разрабатывается много, но до бизнес-применения доходят единицы. Часто игра не стоит свеч — мы еще не перешли в такой технологический передел, в котором инновационные модели осмыслены в постоянном использовании. Мы не научились уменьшать их и строить удобную и достаточно мощную IT-архитектуру, чтобы они запускались в пару кликов без армии разработчиков и десятков GPU-ускорителей.

Следующая большая веха — GPT-3 от OpenAI, которую представили в 2020 году. В ней заложена модель, которая использует, по большому счету, ту же базовую архитектуру, что и в BERT. Однако разработчикам GPT-3 удалось пойти дальше и решить задачу генерации текстов. Система обучена на миллионах страниц текста, что позволило близко к реальности имитировать ответы, воспроизводя статистически наиболее вероятные фразы. Еще одна ее ключевая особенность — удобство доработки (fine-tune). Обучив сеть на большом количестве информации, мы можем дополнять ее узкоспециализированным небольшим объемом данных и учить ее реагировать.

От генерации текстов до создания миров в метавселенных: как ИИ становится главным источником контента

OpenAI не стали «опенсорсить» свой код. К нему можно получить доступ по API, отстояв в листе ожидания. Многие разработчики, получившие доступ к GPT-3, побежали делать стартапы. Мне кажется это плохой идеей, потому что у таких проектов нет уникальности. Глубоко дообучить GPT-3 невозможно, потому что доступа к самой архитектуре у пользователей нет (зато на данный момент есть уже много аналогов, доступных в OpenSource).

От текстов ко всему

Быстро стало понятно, что трансформерные сети будут лучше работать не только с текстом, а почти со всеми модальностями. Трансформеры стали успешно использоваться для генерации изображений и понимании того, что находится на картинке. Такие разработки в числе прочего нужны для развития беспилотных автомобилей.

В рамках развития трансформеров для другой модальности — графов, вышла модель Graphormer от Microsoft, которая обогнала все прочие сети по метрикам в основных бенчмарках для графовых задач. Это графовый трансформер может применяться для, например, моделирования молекул, позволяющий ученым создавать лекарства и исследовать химические реакции, что может ускорить исследования в биологии и медицине. Трансформерные нейросети используются в генерации музыки, обработке видео, редактировании фотографий, создании ИИ для игрушек. Выяснилось, что почти в каждой задаче большая и предобученная архитектура трансформеров эффективнее, чем что-либо еще.

Параллельно с расширением модальностей, в которых применяются трансформеры, продолжается “стероидная гонка” нейросетей. Каждая крупная корпорация пытается сделать сети все большего и большего размера. Бесчисленное множество видеокарт, внушительные объемы собранных данных и огромное количество человеко-часов в сумме дают все более впечатляющие результаты. Сейчас такой вариант развития машинного обучения и Deep Learning эффективнее, чем попытки использования других методов или создания новой инновационной архитектуры.

Следующим этапом развития трансформерных сетей стала мультимодальность. Она подразумевает одновременную обработку разных типов информации в единой архитектуре — например, текстов, картинок и видео.

Собственно, сверхпопулярные сейчас DALL-E и Midjourney — это типичные примеры трансформера с мультимодальностью, который умеет работать с двумя типами данных. На вход они получает текст, а на выход — изображение. Но настоящие мультимодальные модели решают большее количество возможных задач на большем количестве типов данных. Это нас приводит к Foundation Models.

Базисные модели

С точки зрения развития технологий, одно из главных событий прошлого года в сфере ИИ — формирование концепции Foundation Models или «базисных моделей». Речь идет про «суперархитектуру», где мы берем миллиарды данных разных типов — тексты, изображения, аудио, десятки видов графов (и т. д.) — и обучаем огромную модель. Таким образом мы смогли бы решать большой объем прикладных задач единой системой.

От генерации текстов до создания миров в метавселенных: как ИИ становится главным источником контента

Смысл в том, что обучив одну огромную мегамодель с множеством вводных данных один раз, мы сможем ее «разрезать» на разные части (дистиллировать). Далее, например, можно взять навык генерации текстов по ключевым словам и после небольшой доработки получить AI-копирайтер для описания товаров в интернет-магазинах. Или навык генерации изображений по текстам превратить в генератор рекламных баннеров. То есть большая модель имеет сразу множество навыков, а мы берем с нее умение работать с одной задачей, немного дообучаем и используем маленькую часть для решения своих узкопрофильных вопросов.

Сделать один раз огромную модель и дистиллировать из нее маленькие выходит намного выгоднее, чем каждый раз на каждую задачу учить среднюю по размеру модель. Однако создать Foundation Models по силам только огромным корпорациям, потому что обучение такой модели потребуются большие вычислительные мощности и для ее хранения нужно очень много места на серверах.

Что будет с ИИ в ближайшие пять лет?

Создание «базисных моделей» — одна из ключевых задач на ближайшее будущее. Думаю, в течение пяти лет мы получим более менее универсальные Foundation models, которые будут уметь одновременно работать с 5-10 модальностями.

Вектор эволюции ИИ на ближайшие пять лет плотно связан с контентом, особенно из-за развития метавселенных. Создать сейчас мир в виртуальной реальности можно, а вот сделать такое количество контента, чтобы там удержать человека, нельзя. Все упирается в предел возможностей дизайнеров, которые должны вручную создавать окружающее пространство.

Мультимодальные нейросети — это гарантированный шаг в сторону создания колоссального количества контента. Когда сетки научатся собирать тексты, видео и звуки, то можно будет смешать генеративную модель с рекомендательной системой на основе информации о человеке и сделать личную метавселенную для каждого конкретного пользователя.

Новое поколение ИИ-моделей будет ускорять многие бизнес-процессы в компаниях, делая их дешевле и эффективнее. Еще немного доработанный DALL-E сможет генерировать рекламные баннеры и плакаты — в том числе и для МТС, а GPT-3 — создавать рассылки с наилучшей конверсией под разные целевые аудитории. Более умные чат-боты и виртуальные ассистенты будут точнее отвечать на вопросы пользователей, сократив время обработки запросов. Нейросети будут продолжать внедряться во все сферы жизни — в здравоохранение, транспортную отрасль, образование, развлечения и многое другое.

1515
5 комментариев

Метавселенные изначально звучали так, будто кому-то делать нехуй, как и нфт, даже не представляю, сколько ресурсов было вложено, чтобы массы начали считать это чем-то интересным

Есть реальная жизнь в которой сложнее, но если у тебя что-то получается, то удовольствие настоящее, полноценное, всеобъемлющее

А есть идея виртуальной метавселенной, в которой каждый пук будет монетизироваться и взамен будет рейтинг или баллы, мета е-баллы, например.

Постановочный мир, реализация которого интересна в первую очередь крупным корпорациям, которые будут стричь лохов

2
Ответить

Комментарий недоступен

1
Ответить

Главное, чтобы ИИ не оставил нас всех без работы в ближайшие лет 5-10

Ответить

Метавселенные - какое бесполезное слово.

Ответить

Комментарий недоступен

Ответить