Сравниваем Kandinsky 2.1 и MidJourney

Сегодня Сбер выпустил новую модель своего генератора изображений Kandinsky 2.1. Опробовать нейросеть можно на сайте, при помощи команды «Запусти художника» на «умных» устройствах Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте.

Как заявляют разработчики, модель стала еще умнее: ее дополнительно обучили на 170 млн пар «текст — изображение», а затем дообучали на отдельно собранном датасете из 2 млн пар изображений. И если в Kandinsky 2.0 было 2 млрд параметров, в Kandinsky 2.1 их 3,3 млрд.

Я проверил: нейросеть стала генерировать изображения намного лучше, чем раньше. Поэтому решил сравнить ее с возможностями MidJourney. Суть простая: даю одинаковые запросы MidJourney и Kandinsky 2.1 и смотрю, кто справится лучше. Сложность запросов увеличиваю по нарастающей. Поехали.

Важно! Так как MidJourney изначально более обученная нейросеть, ей я даю одну попытку на генерацию, а Kandinsky 2.1 — три.

Запрос так и формируем: «cat» для MidJourney и «кот» для Kandinsky 2.1.

Первый шаг за MidJourney.

Теперь очередь Kandinsky 2.1.

Сразу отмечу, что обе нейросети нарисовали котов примерно в одном стиле: они смотрят в сторону от камеры и не проявляют эмоций. При этом окраска котов и там, и там выглядит не совсем естественной.

Еще одно отличие — у MidJourney коты сильно детализированнее. Это заметно по шерсти. Но дадим Kandinsky 2.1 еще две попытки: вдруг что-то изменится.

А теперь — третья попытка.

Честно, я бы не сказал, что изображение сильно изменилось. Возможно, оно и стало детализированнее, но с глазами кота явно случилась беда.

Важно! Одно из главных отличий нейросетей — MidJourney на второй раз сгенерирует практически новую и уникальную картинку, а вот Kandinsky 2.1 может поменять только ракурсы, но сама идея фотографии всегда остается прежней.

Вывод: у MidJourney получилось детализированнее и интереснее, 1 балл в ее копилку.

Для midjourney запрос звучит как: «three parrots are sitting on a branch and looking into the sunset».

Четвертое фото, на мой взгляд, самое детализированное: видны перья и глаза попугаев. Хорошо проработана ветка и цвета подобраны отлично. Одно но: попугаи не смотрят в закат. Смотрим, что получится у Kandinsky 2.1.

Стилистика опять очень схожа с MidJourney. Вот только попугаи выглядят подуставшими, а у среднего и вовсе какие-то проблемы с глазами. Еще две попытки.

Изменился ракурс и перья стали более четкими

Третье фото получилось самым детализированным, хотя и с недостатками: глаза выглядят неестественными, у левого попугая нет ног, ветка не очень четкая. И они тоже не смотрят в закат.

Вывод: у MidJourney опять все получилось четче, поэтому балл в ее копилку. Но нужно отметить: запрос стал намного сложнее предыдущего, но Kandinsky 2.1 с ним справилась и почти ничем не уступила MidJourney.

Запрос для MidJourney выглядит так: cheburashka from the soviet cartoon if he were a terminator.

Не знаю как вам, но мне очень нравится: мило и красиво одновременно. Теперь очередь Kandinsky 2.1.

У Kandinsky 2.1 чебурашка выглядит более 2D-шным. Но, заметьте: нейросеть и здесь нарисовала примерно также, как это сделала MidJourney. При этом нет больших проблем с конечностями: на ноге нарисовано всего на один палец больше. А руки будто сжаты в кулаки, поэтому не будем придираться. Вторая попытка.

Чебурашка стал намного детализированнее и объемнее. Шерсть выглядит почти как настоящая, а пальцы заменились на лапы. Из-за этого фото стало выглядеть более реалистично.

Одно но: непонятно, что у чебурашки с ушами. Это в них глаза вставились или мне кажется?

Третья попытка.

Я считаю, что на этой попытке получилось совсем круто, поэтому мне не хочется придираться абсолютно ни к чему.

Вывод: в этом раунде объявляю ничью. Все-таки запрос был очень сложным, но обе нейросети справились и нарисовали очень крутые картинки. Поэтому 1:1.

И оно — в встроенном редакторе. Как это работает: нейросеть генерирует фотографию, а вы берете ластик и закрашиваете элементы, которые хотите убрать. И при следующей генерации нейросеть обновит уже сделанное фото, но без тех элементов, которые вы выделили.

Покажу на примере чебурашки. Красным выделены точки, которые я замазал. Сам ластик выделен в левом верхнем углу.

Вот, что получилось в итоге:

А получилось очень круто: нейросеть удалила лишние детали и при этом не испортила фото. За это я готов отдать ей еще два балла.

Поэтому между нейросетями объявляю ничью: хоть у MidJourney и больше возможностей в плане генерации, Kandinsky 2.1 все равно отрабатывает себя на все 100%. А эта фишка с удалением объектов делает его даже удобнее конкурента: там убирать объекты нужно через запросы и постоянные генерации картинок. А здесь замазал — и готово!

А как считаете вы, какая из нейросетей лучше? Пишите свои мнения в комментарии.

И заходите в мой телеграм-канал — там ещё больше полезностей про работу с нейросетями.

44 комментария

Лайк за кандинского

Автор

Спасибо!

SIM channel

07.04.2023

Ну и попугайчики

Попугайчики точно превзошли midjourney))

Всё-таки у stable diffusion пока что нет конкурентов. Можно и на компьютер установить (если не менее 8гб видеопамяти), можно пользоваться онлайн через google collab - и всё это абсолютно бесплатно. На хороших моделях пальцы и прочая сложная анатомия получается в разу лучше даже чем на midjourney v5. Так же изначально в оболочке automatic1111 есть и inpaint (лучший аналог этого пресловутого ластика от кандинского) и image to image и все возможные апскейлеры, и это я ещё не вспоминаю про безграничные возможности с плагинами от controlnet (так же бесплатными).

Если честно, детально не разбирался в работе stable diffuion, но обязательно нужно попробовать. И потом сравнить все, конечно;)
Может быть у вас есть примеры сгенерированных работ?

Иван Левкин

06.04.2023

Автор не уточнил, что использовал четвёртую версию MidJourney. Сейчас уже доступна пятая и там всё намного круче, даже с пальцами всё ок, дело в том, что она доступна только в платной подписке на данный момент, но обещают скоро добавить в триальную.

Сравниваем Kandinsky 2.1 и MidJourney

Первый запрос — кот

Второй запрос — 3 попугая сидят на ветке и смотрят в закат

Третий запрос — чебурашка из советского мультика, если бы он был терминатором

Но у Kandinsky 2.1 есть сильное преимущество