В начале было слово: как соперничали две российские нейросети.

С начала 2022 года интерес к нейросетям взлетел в 15 раз. Это слово гуглят так же часто, как «смартфон». Уже треть россиян перекидывает на них свои личные и рабочие задачи. Доля будет расти вместе с возможностями ИИ, а еще с желающими укусить этот пирог. В России в эту гонку за будущее вступили два техногиганта: «Яндекс» и «Сбер».

В этой статье напомню всем, как мастодонты отечественного IT развязали холодную войну в разработке нейросетей. В хронологическом порядке покажу ключевые события в развитии умных продуктов компании, которые вышли в массы. О некоторых вы даже не слышали. Еще продемонстрирую, как улучшались генераторы изображений: от снов при температуре до фотореализма.

ruGPT-3 XL

1 апреля 2021. Вернемся в день, когда российские нейросети сделали первый рывок. «Сбер» представил ruGPT-3 XL — крупнейшую русскоязычную модель, способную писать тексты и даже код. Работает просто: вы ей фразу, она вам продолжение. Пользователей сразу предупреждают, что компания не в ответе за результаты, ведь иногда модель может раздать абсурда:

Продолжение для «А дед ему и говорит».
Продолжение для «А дед ему и говорит».

Оснащение в 1,3 млрд параметров и контекст 2048 токенов позволяет подать на вход достаточно длинный текст, но контент можно сделать и одной строкой.

Балабоба

17 июня 2021. В ответ «Яндекс» запускает «Балабобу». Он может закончить историю или написать короткий рассказ в стиле пацанских цитат или теорий заговора, что быстро стало мемом. Вновь предупреждают:

Снова дисклеймер 18+.
Снова дисклеймер 18+.

Работает на собственной языковой модели YaLM. Под капотом скрываются 3 млрд параметров, а обучалась она на страницах из поиска Яндекса, включая «Википедию». Вот энциклопедическое определение верблюда:

Верблюд в стиле «Тост».
Верблюд в стиле «Тост».

Malevich

2 ноября 2021. На сцену выходит ruDALL-E XL Malevich — первая нейросеть для генерации картинок на русском языке. Это назвали новым шагом к мультимодальности — одновременной работе с текстом, изображениями, речью и музыкой.

«Озеро в горах, а рядом красивый олень пьет воду», Malevich.
«Озеро в горах, а рядом красивый олень пьет воду», Malevich.

Модель получила 1,3 млрд параметров для генерации. Для обучения ей «скормили» 120 млн пар изображение — описание. Делюсь кошкой из галереи сервиса, потому что новые уже не генерирует.

«Кошка которая сделана из белого облака», Malevich. 
«Кошка которая сделана из белого облака», Malevich. 

Kandinsky

14 июня 2022. «Сбер» презентовал самый большой генератор изображений по тексту на русском языке, получивший имя Kandinsky. Это улучшенная версия ruDALL-E, в которой число параметров получило сильный апгрейд, скакнув с 1,3 млрд до 12 млрд. Визуально:

В начале было слово: как соперничали две российские нейросети.

Генерация теперь происходит в три этапа:

  • Одна нейросеть (сам Kandinsky) получает текстовое описание и выдаёт несколько картинок;
  • Вторая (ruCLIP Large) отбирает наиболее удачные;
  • Третья увеличивает их в размере.

Она еще в строю, поэтому сделаем своего персонажа для сравнения с будущими моделями:

«Верблюд в наушниках», Kandinsky.
«Верблюд в наушниках», Kandinsky.

YaLM 100B

23 июня 2022. «Яндекс» выкатывает настоящего гиганта — YaLM 100B, крупнейшая GPT-подобная нейросеть, которую можно свободно пощупать. 100 млрд параметров на борту делают ее больше любой другой русскоязычной модели. Для сравнения, в «Балабобе» использовались 3 млрд, вот визуал для наглядности:

В начале было слово: как соперничали две российские нейросети.

YaLM внедрили более чем в 20 проектов, включая «Поиск» и «Алису». В процессе обучения YaLM 100B поглотила около 2 ТБ текстов из открытого доступа, поэтому не говорите Алисе, что она поправилась.

Kandinsky 2.0

23 ноября 2022. Следующий апдейт от «Сбера» — встречаем Kandinsky 2.0. Диффузионная модель с 2 млрд параметров понимает запросы на 101 языке. Нейросеть прошла интенсив по рисованию на 1 млрд пар «текст — изображение».

Из галереи.
Из галереи.

Здесь впервые добавили функции «inpainting» (замена любого объекта на изображении) и «outpainting» (возможность дорисовывать изображение и фон).

Шедеврум

5 апреля 2023. «Яндекс» решил не отставать и расчехлил прототип собственной нейросети для генерации картинок в приложении «Шедеврум». Модель работает по методу каскадной диффузии — создает картинку и поэтапно увеличивает разрешение.

После генерации сервис предложит 4 варианта, самый удачный можно опубликовать в ленте, что стало хитом среди пользователей — приложение быстро залетело в топ скачиваний AppStore.

Kandinsky 2.1

14 апреля 2023. Не дав отдышаться, «Сбер» обновляет Kandinsky до версии 2.1. Обновленная модель была дополнительно обучена на 170 млн пар «текст — изображение» высокого разрешения и расширилась до 3,3 млрд параметров.

Обновляем верблюда:

«Верблюд в наушниках», Kandinsky 2.1.
«Верблюд в наушниках», Kandinsky 2.1.

Шедеврум v1.1

15 июня 2023. «Яндекс» отвечает внедрением в «Шедеврум» языковой модели нового поколения YandexGPT (YaLM 2.0). Теперь там можно написать короткий рассказ или сочинить слоган.

Нас интересует лишь генерация верблюда в версии 1.1,:

«Верблюд в наушниках», Шедеврум v1.1.
«Верблюд в наушниках», Шедеврум v1.1.

Kandinsky 2.2

12 июля 2023. Контратака от «Сбера» — новая версия Kandinsky 2.2. Для дообучения модели мобилизовали огромный датасет в размере 1,5 млрд пар «текст — изображение».

Сильно обновился бот в Telegram: теперь он может создавать полноценные стикерпаки и способен по текстовому описанию менять отдельные объекты на изображениях.

Нейросеть считает, что чем больше складок у верблюда, тем лучше:

«Верблюд в наушниках», Kandinsky 2.2.
«Верблюд в наушниках», Kandinsky 2.2.

Анимация в Шедеврум

28 августа 2023. Время тяжелой артиллерии — нейросеть «Яндекса» научилась генерировать анимацию в «Шедевруме». Можно создать видео длиной четыре секунды с частотой 24 кадра в секунду.

«Верблюд в наушниках», анимация Шедеврум.

GigaChat

5 сентября 2023. «Сбер» открывает публичный доступ к мультимодальному сервису GigaChat, который до этого был в бета-тесте. В нем целый пергамент возможностей в работе с текстом, изображениями и файлами, поэтому для него даже гайд сделали.

Что не будет обсуждать GigaChat.
Что не будет обсуждать GigaChat.

Использовать можно в веб-версии, а также в формате бота в Telegram и VK.

Шедеврум v1.2

18 октября 2023. «Яндекс» представил нейросеть YandexART, которая создаёт изображения и анимацию. Заявляют, что она в курсе российских культурных особенностей. А знает ли робот, почему «Баба-Яга против»? Доступна в «Шедевруме» и облачном сервисе. Проверяем ее в генерации верблюда:

«Верблюд в наушниках», Шедеврум v1.2.
«Верблюд в наушниках», Шедеврум v1.2.

Kandinsky 3.0

22 ноября 2023. «Сбер» выкатывает крупное обновление Kandinsky до версии 3.0. Модель теперь создаёт изображения с разным соотношением сторон и разрешением 1024×1024 пикселей. Верблюд вышел в образе гигачада:

«Верблюд в наушниках», Kandinsky 3.0.
«Верблюд в наушниках», Kandinsky 3.0.

Еще добавили создание анимации. По запросу генерируется 4-х секундное видео с выбранным эффектом анимации, частотой 24 кадра в секунду и разрешением 640х640. Тестим:

«Верблюд в наушниках», анимация Kandinsky.

Kandinsky 3.1

22 апреля 2024. Цифрового художника обновляют до версии Kandinsky 3.1. Самое интересное, что добавили модель Kandinsky 3.1 Flash, которая генерирует в 10 раз быстрее. Смотрим, как изменился верблюд:

«Верблюд в наушниках», Kandinsky 3.1.
«Верблюд в наушниках», Kandinsky 3.1.

Шедеврум v1.3

24 апреля 2024. «Яндекс» показал YandexART 1.3. Нейросеть перешла на новую технологию — латентную диффузию. Чтобы модель лучше понимала запросы, датасет для обучения был увеличен до 850 млн пар картинок с текстом.

«Верблюд в наушниках», Шедеврум v1.3.
«Верблюд в наушниках», Шедеврум v1.3.

Кроме того, обновление позволяет создавать изображения в разных форматах, таких как 16:9, 4:3 или 3:4.

Kandinsky Video 1.1

28 мая 2024. Долой анимацию — «Сбер» представил бета-версию Kandinsky Video 1.1 для создания видеороликов по текстовому описанию и изображению.

Модель генерирует видеоряд до шести секунд с частотой 8 и 32 кадра в секунду. С обновлённым Kandinsky Video можно создавать видео в разных форматах — 16:9, 9:16 или 1:1.

«Верблюд в наушниках», видео Kandinsky.

Кроме того, в новой версии модели можно контролировать динамику генерируемого видео с помощью специального параметра «motion score».

Итоги

Благодаря конкуренции двух российских техногигантов в сфере ИИ, мы имеем цифровое пространство таким, какое оно есть. Если раньше клиенты звонили в банк или провайдеру и скандалили с оператором, то сегодня все угрозы с удовольствием выслушает условный нейро-Олег.

Нейросети внедрены в гораздо большее число сервисов, используемых ежедневно. Я лишь затронул истоки и показал генераторы визуального контента, однако в них и воплощены все новшества.

На самом деле по коллажам становится видно, что верблюд просто стареет и делает фото каждый день рождения:

Kandinsky.
Kandinsky.
Шедеврум.
Шедеврум.

Это был интересный опыт. Не обещаю и дальше так активно мониторить развитие нейросетей, но важные моменты все равно освещать буду.

22
1 комментарий