Kandinsky 3.0 и Kandinsky Video — новые релизы генеративных нейросетей Сбера

Под капотом: знание культурного кода России, умение «снимать» восьмисекундные видео и создавать полноценные художественные картины.

Новая версия Kandinsky, которую мы представили сегодня на конференции по искусственному интеллекту и машинному обучению AI Journey, в сравнении с предыдущими лучше понимает пользователя, умеет создавать ещё более фотореалистичные изображения, генерировать полноценные художественные картины и арты со скетчами.

А ещё Kandinsky 3.0 лучше предыдущих версий знаком с элементами отечественного культурного кода: знает в лицо российских и советских известных личностей и персонажей, легко изобразит архитектурные достопримечательности и элементы народного искусства России (например, гжельскую роспись).

Kandinsky 3.0 и Kandinsky Video — новые релизы генеративных нейросетей Сбера

Для обучения нейросети разработчики использовали обновлённый датасет в размере 1,5 млрд пар «текст — изображение», содержащий данные, которые прошли многоэтапные процедуры фильтрации, что в итоге привело к заметному повышению качества генераций.

Примеры генераций популярных моделей в сравнении с Kandinsky 3.0

Kandinsky 3.0 понимает запросы более чем на 100 языках, а пользователи могут создавать изображения в неограниченном количестве стилей. Модель разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.

Подробнее про обновление Kandinsky 3.0 можно прочесть в блоге Сбера на Хабре, а протестировать самостоятельно — в Telegram-боте, на fusionbrain.ai и сайте rudalle.ru, во ВКонтакте, в сервисе GigaChat и на всех умных устройствах Sber по голосовой команде «Запусти художника».

Ещё одно обновление: Kandinsky Video — первая в России нейросеть для генерации полноценных видео с плавным видеорядом с частотой 30 кадров в секунду и возможностью делать ролики с хронометражем до 8 секунд. Модель Kandinsky Video обучалась на датасете из 300 000 пар «текст — видео» и включает в себя два ключевых блока, которые работают вместе. Один отвечает за создание ключевых кадров структуры сюжета, а второй — за плавность движений. В качестве генератора кадров для Kandinsky Video используется обновлённая модель Kandinsky 3.0.

Подробнее про «начинку» Kandinsky Video можно прочесть в блоге Сбера на Хабре, а попробовать самостоятельно — на платформе fusionbrain.ai и в Telegram-боте.