В начале было слово: как соперничали две российские нейросети.

С начала 2022 года интерес к нейросетям взлетел в 15 раз. Это слово гуглят так же часто, как «смартфон». Уже треть россиян перекидывает на них свои личные и рабочие задачи. Доля будет расти вместе с возможностями ИИ, а еще с желающими укусить этот пирог. В России в эту гонку за будущее вступили два техногиганта: «Яндекс» и «Сбер».

В этой статье напомню всем, как мастодонты отечественного IT развязали холодную войну в разработке нейросетей. В хронологическом порядке покажу ключевые события в развитии умных продуктов компании, которые вышли в массы. О некоторых вы даже не слышали. Еще продемонстрирую, как улучшались генераторы изображений: от снов при температуре до фотореализма.

1 апреля 2021. Вернемся в день, когда российские нейросети сделали первый рывок. «Сбер» представил ruGPT-3 XL — крупнейшую русскоязычную модель, способную писать тексты и даже код. Работает просто: вы ей фразу, она вам продолжение. Пользователей сразу предупреждают, что компания не в ответе за результаты, ведь иногда модель может раздать абсурда:

Оснащение в 1,3 млрд параметров и контекст 2048 токенов позволяет подать на вход достаточно длинный текст, но контент можно сделать и одной строкой.

17 июня 2021. В ответ «Яндекс» запускает «Балабобу». Он может закончить историю или написать короткий рассказ в стиле пацанских цитат или теорий заговора, что быстро стало мемом. Вновь предупреждают:

Работает на собственной языковой модели YaLM. Под капотом скрываются 3 млрд параметров, а обучалась она на страницах из поиска Яндекса, включая «Википедию». Вот энциклопедическое определение верблюда:

2 ноября 2021. На сцену выходит ruDALL-E XL Malevich — первая нейросеть для генерации картинок на русском языке. Это назвали новым шагом к мультимодальности — одновременной работе с текстом, изображениями, речью и музыкой.

«Озеро в горах, а рядом красивый олень пьет воду», Malevich.

Модель получила 1,3 млрд параметров для генерации. Для обучения ей «скормили» 120 млн пар изображение — описание. Делюсь кошкой из галереи сервиса, потому что новые уже не генерирует.

«Кошка которая сделана из белого облака», Malevich.

14 июня 2022. «Сбер» презентовал самый большой генератор изображений по тексту на русском языке, получивший имя Kandinsky. Это улучшенная версия ruDALL-E, в которой число параметров получило сильный апгрейд, скакнув с 1,3 млрд до 12 млрд. Визуально:

В начале было слово: как соперничали две российские нейросети.

Генерация теперь происходит в три этапа:

Одна нейросеть (сам Kandinsky) получает текстовое описание и выдаёт несколько картинок;
Вторая (ruCLIP Large) отбирает наиболее удачные;
Третья увеличивает их в размере.

Она еще в строю, поэтому сделаем своего персонажа для сравнения с будущими моделями:

23 июня 2022. «Яндекс» выкатывает настоящего гиганта — YaLM 100B, крупнейшая GPT-подобная нейросеть, которую можно свободно пощупать. 100 млрд параметров на борту делают ее больше любой другой русскоязычной модели. Для сравнения, в «Балабобе» использовались 3 млрд, вот визуал для наглядности:

YaLM внедрили более чем в 20 проектов, включая «Поиск» и «Алису». В процессе обучения YaLM 100B поглотила около 2 ТБ текстов из открытого доступа, поэтому не говорите Алисе, что она поправилась.

23 ноября 2022. Следующий апдейт от «Сбера» — встречаем Kandinsky 2.0. Диффузионная модель с 2 млрд параметров понимает запросы на 101 языке. Нейросеть прошла интенсив по рисованию на 1 млрд пар «текст — изображение».

Здесь впервые добавили функции «inpainting» (замена любого объекта на изображении) и «outpainting» (возможность дорисовывать изображение и фон).

5 апреля 2023. «Яндекс» решил не отставать и расчехлил прототип собственной нейросети для генерации картинок в приложении «Шедеврум». Модель работает по методу каскадной диффузии — создает картинку и поэтапно увеличивает разрешение.

После генерации сервис предложит 4 варианта, самый удачный можно опубликовать в ленте, что стало хитом среди пользователей — приложение быстро залетело в топ скачиваний AppStore.

14 апреля 2023. Не дав отдышаться, «Сбер» обновляет Kandinsky до версии 2.1. Обновленная модель была дополнительно обучена на 170 млн пар «текст — изображение» высокого разрешения и расширилась до 3,3 млрд параметров.

«brad pitt with afro hair 4k», Kandinsky 2.1.

Обновляем верблюда:

15 июня 2023. «Яндекс» отвечает внедрением в «Шедеврум» языковой модели нового поколения YandexGPT (YaLM 2.0). Теперь там можно написать короткий рассказ или сочинить слоган.

Нас интересует лишь генерация верблюда в версии 1.1,:

12 июля 2023. Контратака от «Сбера» — новая версия Kandinsky 2.2. Для дообучения модели мобилизовали огромный датасет в размере 1,5 млрд пар «текст — изображение».

Сильно обновился бот в Telegram: теперь он может создавать полноценные стикерпаки и способен по текстовому описанию менять отдельные объекты на изображениях.

Нейросеть считает, что чем больше складок у верблюда, тем лучше:

28 августа 2023. Время тяжелой артиллерии — нейросеть «Яндекса» научилась генерировать анимацию в «Шедевруме». Можно создать видео длиной четыре секунды с частотой 24 кадра в секунду.

«Верблюд в наушниках», анимация Шедеврум.

5 сентября 2023. «Сбер» открывает публичный доступ к мультимодальному сервису GigaChat, который до этого был в бета-тесте. В нем целый пергамент возможностей в работе с текстом, изображениями и файлами, поэтому для него даже гайд сделали.

Использовать можно в веб-версии, а также в формате бота в Telegram и VK.

18 октября 2023. «Яндекс» представил нейросеть YandexART, которая создаёт изображения и анимацию. Заявляют, что она в курсе российских культурных особенностей. А знает ли робот, почему «Баба-Яга против»? Доступна в «Шедевруме» и облачном сервисе. Проверяем ее в генерации верблюда:

22 ноября 2023. «Сбер» выкатывает крупное обновление Kandinsky до версии 3.0. Модель теперь создаёт изображения с разным соотношением сторон и разрешением 1024×1024 пикселей. Верблюд вышел в образе гигачада:

Еще добавили создание анимации. По запросу генерируется 4-х секундное видео с выбранным эффектом анимации, частотой 24 кадра в секунду и разрешением 640х640. Тестим:

«Верблюд в наушниках», анимация Kandinsky.

22 апреля 2024. Цифрового художника обновляют до версии Kandinsky 3.1. Самое интересное, что добавили модель Kandinsky 3.1 Flash, которая генерирует в 10 раз быстрее. Смотрим, как изменился верблюд:

24 апреля 2024. «Яндекс» показал YandexART 1.3. Нейросеть перешла на новую технологию — латентную диффузию. Чтобы модель лучше понимала запросы, датасет для обучения был увеличен до 850 млн пар картинок с текстом.

Кроме того, обновление позволяет создавать изображения в разных форматах, таких как 16:9, 4:3 или 3:4.

28 мая 2024. Долой анимацию — «Сбер» представил бета-версию Kandinsky Video 1.1 для создания видеороликов по текстовому описанию и изображению.

Модель генерирует видеоряд до шести секунд с частотой 8 и 32 кадра в секунду. С обновлённым Kandinsky Video можно создавать видео в разных форматах — 16:9, 9:16 или 1:1.

«Верблюд в наушниках», видео Kandinsky.

Кроме того, в новой версии модели можно контролировать динамику генерируемого видео с помощью специального параметра «motion score».

Благодаря конкуренции двух российских техногигантов в сфере ИИ, мы имеем цифровое пространство таким, какое оно есть. Если раньше клиенты звонили в банк или провайдеру и скандалили с оператором, то сегодня все угрозы с удовольствием выслушает условный нейро-Олег.

Нейросети внедрены в гораздо большее число сервисов, используемых ежедневно. Я лишь затронул истоки и показал генераторы визуального контента, однако в них и воплощены все новшества.

На самом деле по коллажам становится видно, что верблюд просто стареет и делает фото каждый день рождения: