Новый виртуальный художник от Сбера: встречайте нейросеть Kandinsky 2.2

С улучшенным разрешением генерации, эффектом фотореализма и возможностью вносить локальные изменения в синтезированное изображение.

Новая версия модели научилась создавать фотореалистичные изображения с более высоким разрешением сторон, рисовать детализированные портреты и даже генерировать стикеры, из которых можно собирать полноценные стикерпаки в Telegram. Также бот Kandinsky 2.2 теперь способен изменять по текстовому описанию отдельные объекты или элементы на изображениях, сохраняя композицию исходной иллюстрации. Это стало возможным благодаря внедрению в модель специального структурного блока управляемых изменений — ControlNet.

Kandinsky 2.2 понимает запросы на русском и английском языках (и даже смайлики), умеет рисовать более чем в 20 стилях, смешивать несколько рисунков, стилизовать изображение по текстовому описанию, генерировать изображения, похожие на заданные, дорисовывать недостающие части картинки (inpainting), создавать картины в режиме бесконечного полотна (outpainting).

Для дообучения нейросети использовался датасет в размере 1,5 млрд пар «текст — изображение». Это на 300 млн больше, чем в предыдущей версии — Kandinsky 2.1, которая стала самой быстрорастущей нейросетью в мире, набрав один миллион пользователей всего за 4 дня после выхода.

До Kandinsky 2.2 ни одна генеративная сеть не позволяла контролировать процесс синтеза изображения: можно было долго подбирать промт для желаемой сцены, но так и не получить полностью подходящее изображение. В новом релизе нейросети Сбера вы сможете управлять положением какого-то объекта на картинке, его формой, позой, контурами или границами:

Также значительно улучшилась генерация изображений в сравнении с предыдущими версиями нейросети:

О технических деталях Kandinsky 2.2 читайте в статье на Хабре.

Оценить возможности нейросети можно на промостранице модели, на платформе FusionBrain.AI и в Telegram-боте, а также при помощи команды «Запусти художника» на умных устройствах Sber, в мобильном приложении Салют. Модель доступна на платформе ML Space в хабе предобученных моделей и датасетов DataHub.

Модель Kandinsky 2.2 была разработана и обучена исследователями команды Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.

Коллектив авторов: Арсений Шахматов (главный контрибьютор), Антон Разжигаев, Владимир Архипкин, Игорь Павлов, Ангелина Куц, Андрей Кузнецов, Денис Димитров.

Новый виртуальный художник от Сбера: встречайте нейросеть Kandinsky 2.2

В чём особенность последней доработки

Как можно протестировать модель

Авторы