Сравниваем Kandinsky 2.1 и MidJourney
Сегодня Сбер выпустил новую модель своего генератора изображений Kandinsky 2.1. Опробовать нейросеть можно на сайте, при помощи команды «Запусти художника» на «умных» устройствах Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте.
Как заявляют разработчики, модель стала еще умнее: ее дополнительно обучили на 170 млн пар «текст — изображение», а затем дообучали на отдельно собранном датасете из 2 млн пар изображений. И если в Kandinsky 2.0 было 2 млрд параметров, в Kandinsky 2.1 их 3,3 млрд.
Я проверил: нейросеть стала генерировать изображения намного лучше, чем раньше. Поэтому решил сравнить ее с возможностями MidJourney. Суть простая: даю одинаковые запросы MidJourney и Kandinsky 2.1 и смотрю, кто справится лучше. Сложность запросов увеличиваю по нарастающей. Поехали.
Важно! Так как MidJourney изначально более обученная нейросеть, ей я даю одну попытку на генерацию, а Kandinsky 2.1 — три.
Первый запрос — кот
Запрос так и формируем: «cat» для MidJourney и «кот» для Kandinsky 2.1.
Первый шаг за MidJourney.
Теперь очередь Kandinsky 2.1.
Сразу отмечу, что обе нейросети нарисовали котов примерно в одном стиле: они смотрят в сторону от камеры и не проявляют эмоций. При этом окраска котов и там, и там выглядит не совсем естественной.
Еще одно отличие — у MidJourney коты сильно детализированнее. Это заметно по шерсти. Но дадим Kandinsky 2.1 еще две попытки: вдруг что-то изменится.
А теперь — третья попытка.
Честно, я бы не сказал, что изображение сильно изменилось. Возможно, оно и стало детализированнее, но с глазами кота явно случилась беда.
Важно! Одно из главных отличий нейросетей — MidJourney на второй раз сгенерирует практически новую и уникальную картинку, а вот Kandinsky 2.1 может поменять только ракурсы, но сама идея фотографии всегда остается прежней.
Вывод: у MidJourney получилось детализированнее и интереснее, 1 балл в ее копилку.
Второй запрос — 3 попугая сидят на ветке и смотрят в закат
Для midjourney запрос звучит как: «three parrots are sitting on a branch and looking into the sunset».
Четвертое фото, на мой взгляд, самое детализированное: видны перья и глаза попугаев. Хорошо проработана ветка и цвета подобраны отлично. Одно но: попугаи не смотрят в закат. Смотрим, что получится у Kandinsky 2.1.
Стилистика опять очень схожа с MidJourney. Вот только попугаи выглядят подуставшими, а у среднего и вовсе какие-то проблемы с глазами. Еще две попытки.
Третье фото получилось самым детализированным, хотя и с недостатками: глаза выглядят неестественными, у левого попугая нет ног, ветка не очень четкая. И они тоже не смотрят в закат.
Вывод: у MidJourney опять все получилось четче, поэтому балл в ее копилку. Но нужно отметить: запрос стал намного сложнее предыдущего, но Kandinsky 2.1 с ним справилась и почти ничем не уступила MidJourney.
Третий запрос — чебурашка из советского мультика, если бы он был терминатором
Запрос для MidJourney выглядит так: cheburashka from the soviet cartoon if he were a terminator.
Не знаю как вам, но мне очень нравится: мило и красиво одновременно. Теперь очередь Kandinsky 2.1.
У Kandinsky 2.1 чебурашка выглядит более 2D-шным. Но, заметьте: нейросеть и здесь нарисовала примерно также, как это сделала MidJourney. При этом нет больших проблем с конечностями: на ноге нарисовано всего на один палец больше. А руки будто сжаты в кулаки, поэтому не будем придираться. Вторая попытка.
Чебурашка стал намного детализированнее и объемнее. Шерсть выглядит почти как настоящая, а пальцы заменились на лапы. Из-за этого фото стало выглядеть более реалистично.
Одно но: непонятно, что у чебурашки с ушами. Это в них глаза вставились или мне кажется?
Третья попытка.
Я считаю, что на этой попытке получилось совсем круто, поэтому мне не хочется придираться абсолютно ни к чему.
Вывод: в этом раунде объявляю ничью. Все-таки запрос был очень сложным, но обе нейросети справились и нарисовали очень крутые картинки. Поэтому 1:1.
Но у Kandinsky 2.1 есть сильное преимущество
И оно — в встроенном редакторе. Как это работает: нейросеть генерирует фотографию, а вы берете ластик и закрашиваете элементы, которые хотите убрать. И при следующей генерации нейросеть обновит уже сделанное фото, но без тех элементов, которые вы выделили.
Покажу на примере чебурашки. Красным выделены точки, которые я замазал. Сам ластик выделен в левом верхнем углу.
Вот, что получилось в итоге:
А получилось очень круто: нейросеть удалила лишние детали и при этом не испортила фото. За это я готов отдать ей еще два балла.
Поэтому между нейросетями объявляю ничью: хоть у MidJourney и больше возможностей в плане генерации, Kandinsky 2.1 все равно отрабатывает себя на все 100%. А эта фишка с удалением объектов делает его даже удобнее конкурента: там убирать объекты нужно через запросы и постоянные генерации картинок. А здесь замазал — и готово!
А как считаете вы, какая из нейросетей лучше? Пишите свои мнения в комментарии.
И заходите в мой телеграм-канал — там ещё больше полезностей про работу с нейросетями.
Лайк за кандинского
Спасибо!
Ну и попугайчики
Попугайчики точно превзошли midjourney))
Всё-таки у stable diffusion пока что нет конкурентов. Можно и на компьютер установить (если не менее 8гб видеопамяти), можно пользоваться онлайн через google collab - и всё это абсолютно бесплатно. На хороших моделях пальцы и прочая сложная анатомия получается в разу лучше даже чем на midjourney v5. Так же изначально в оболочке automatic1111 есть и inpaint (лучший аналог этого пресловутого ластика от кандинского) и image to image и все возможные апскейлеры, и это я ещё не вспоминаю про безграничные возможности с плагинами от controlnet (так же бесплатными).
Если честно, детально не разбирался в работе stable diffuion, но обязательно нужно попробовать. И потом сравнить все, конечно;)
Может быть у вас есть примеры сгенерированных работ?
Автор не уточнил, что использовал четвёртую версию MidJourney. Сейчас уже доступна пятая и там всё намного круче, даже с пальцами всё ок, дело в том, что она доступна только в платной подписке на данный момент, но обещают скоро добавить в триальную.