Kandinsky 2.2: что нового в нейросети от Сбера

Вчера Кандинский обновился до версии 2.2. Мы решили сравнить его с предыдущей версией и заодно проверить, начал ли он догонять известную нейросеть Midjourney. Итак, спойлер: он пока еще не дотягивает до уровня Midjourney, но новое обновление вышло действительно интересным!

В обзоре будем сравнивать версии 2.1 и 2.2, используя один и тот же промпт. И чисто из интереса те же промпты выдадим Midjourney.

Идеи для промптов брали на сайте Prompt Hero — постарались выбрать разные тематики. Кандинский понимает запросы и на русском, и на английском, так что переводить мы их не стали.

Основные положения обновления:

Генерируемые изображения стали более фотореалистичными;
Теперь можно указывать соотношения сторон будущего изображения. Раньше генерируемые изображения были ограничены квадратным форматом 1:1;
Функционал ControlNet: он предоставляет вам возможность вносить локальные изменения на картинке без изменения всей сцены.

Решили начать с портретов, чтобы проверить, насколько изображения стали более реалистичными

a commercial photo portrait of stunning instagram model, sparklecore, appropriation artist, shiny/glossy, clear edge definition, unique and one-of-a-kind pieces, light brown and light amber, Fujifilm X-T4, Sony FE 85mm f/1. 4 GM

Кандинский 2.1 vs 2.2

Kandinsky 2.2: что нового в нейросети от Сбера

Сразу заметна разница. Хотя с первого взгляда и видно, что это не фотография живого человека (либо сильно отфотошопленная версия), но результаты уже получше. Для сравнения вот такую фотореалистичность сейчас выдает Midjourney:

Не удержались и решили провести эксперимент на Папе Римском. В этот раз мы обойдемся без переодевания его в белый пуховик (вы еще помните тот тренд с Баленсиагой?), а отправим его в Майами в 80-е годы.

Pope Francis in 80s Miami Style

Кандинский 2.1 vs 2.2

Вот тут мы не сильно впечатлились. Версия 2.1 получается даже более интересной и оригинальной. Да и цветовая гамма у нее сразу ассоциируется с розовым стилем и пальмами, о которых думаешь, когда слышишь о Майами 80-х. Версия 2.2 от Кандинского имеет излишнюю желтую насыщенность, это кстати сильный минус новой версии. Кажется, в 2.1 этого было меньше. Ну ладно, пойдем дальше.

Кстати, вот вам версия от Миджорни:

Несмотря на колоссальную разницу в качестве, 2.1 и Midjourney в общем-то попали в один вайб!

Ладно, давайте оставим фотореализм на время и сделаем что-то забавное и мультяшное. Вот промпт, который мы выбрали:

a cartoon of an astronaut in space full of other characters, in the style of dreamscape portraiture, youthful protagonists, dark cyan and bronze, vibrant murals, lit kid, photorealistic renderings, intricate underwater worlds

Кандинский 2.1 vs 2.2

Есть впечатление, что новая версия стала чуть более... скучной? Мы пробовали этот промпт в разных стилях — и в мультфильме, и в аниме, и во всяких разных. Однако все равно получается некая «пустоватая» картинка с характерной засвеченностью. В общем, мы снова хотим отдать свой голос за предыдущую версию.

А вот Midjourney:

Как будто бы они тут с 2.1 опять мыслили в одном направлении. У Кандинского даже персонажи на заднем фоне повеселее вышли :)

Одно из интересных применений нейросетей — генерировать референсы для предметных съемок. Давайте попробуем создать рекламу бургера!

Flying food photography with a burger as the main theme, splash of toppings and spices, cheddar flavored cheese, onion, pickles, sesame Bun

Кандинский 2.1 vs 2.2

Опять же, версия 2.1 действительно проявляет больше фантазии, здесь и соусы, и кусочки бургеров. Зато вот у 2.2 получается гораздо реалистичнее.

И вот такой результат показывает Midjourney:

Давайте попросим нейросеть нарисовать для нас интерьер дома с большими окнами, открытой планировкой и использованием натуральных материалов.

open spaces that are arranged to be viewable, in the style of ludwig mies van der rohe, light brown and light amber, post-war french design, voigtlander brilliant, balcomb greene, use of common materials, windows vista

Кандинский 2.1 vs 2.2

Девиз 2.2: Еще больше желтизны богу желтизны...

Давайте еще раз вернемся проверить фотореалистичность. Хотим ленивца!

A photo of a cute sloth swimming in a river, summer day

Кандинский 2.1 vs 2.2

Ну, стало чуть более реалистично. Но все равно заметна повторяющаяся проблема с излишней насыщенностью.

Забавно наблюдать, как Миджорни и версия 2.1 выдают примерно похожие результаты:

Действительно, различия между версиями 2.1 и 2.2 заметны сразу. Даже если бы все эти изображения были представлены в одинаковом формате и размере, все же было бы возможно легко отличить две версии.

В телеграм-боте Кандинского появились новые функции взаимодействия с изображениями, например возможность «смешивания». В этом режиме, по аналогии с функцией «remix» в Midjourney, вы можете загрузить изображение и написать тестовый промпт. Тогда нейросеть не только сгенерирует изображение, но и возьмет за основу загруженное изображение.

Для эксперимента, мы решили взять портрет девушки, который сгенерировали ранее, и в промпте написали всего одно слово: смокинг.

Вышло интересно, вот это нам понравилось :)

Очень похоже на функцию смешения. Здесь вы можете использовать одно изображение в качестве основы и передать его стиль другому. Не нужно дополнительно писать, что вы хотите получить — нейросеть все сделает сама.

Нажали «смешать картинки» и получили это:

Функции смешения и переноса стиля тянут потестировать их еще. Можете загружать свои фотографии и использовать их в качестве основы для генерации других изображений с разными стилями. Поле для экспериментов огромное!

Выбираете соответствующую команду в меню тг-бота, вводите промпт, и получаете изображения, которые можно сразу же использовать для создания стикерпака прямо в телеграме:

Вот это крутая функция, особенно для любителей собирать свои собственные наборы стикеров. Теперь вам не нужны никакие сторонние программы, чтобы создавать свои уникальные стикеры и делиться ими с друзьями.

Midjourney так не умеет!

Новые функции 2.2 нам понравились. В них не нужно долго разбираться да и проблем с ними не возникло.

Конечно, Кандинский, несмотря на свои достоинства, уступает Midjourney во многих аспектах. Но учтем, что Midjourney имеет больший объем данных для обучения — будем верить, что у Кандинского еще все впереди!

Недостаток обновления, который нас расстроил — «безликость» и желтизна получаемых изображений. Кроме того, несмотря на увеличение количества стилей до двадцати, разница между ними оказалась не всегда заметна и особого восторга не вызвала.

Как вам обновление? Успели затестить?

Подписывайтесь на наш телеграм-канал: мы следим за новостями в сфере нейросетей и рассказываем только самое главное. А еще устраиваем интерактивы и тестируем нейросетки вместе с подписчиками ⚡

t.me

Нейросекта

Kandinsky 2.2: что нового в нейросети от Сбера

Немного об обновлении

Портрет

Стиль: мультфильм

Предметная съемка

Архитектура

Животные

Еще немного сравнений 2.1 и 2.2

Новая функция: смешивание картинки и текста

Новая функция: перенос стиля

Делаем стикеры

Итог