Сравниваем нейросети Kandinsky 2.1 от Сбера и «Шедеврум» от Яндекса

Чтобы поиграться с генеративными нейросетями, необязательно идти в Midjourney или Stable Diffusion. В России есть свои нейросети, которые тоже неплохо рисуют: Kandinsky от Сбера и «Шедеврум» от Яндекса. Разбираемся, какая из них работает лучше и генерирует круче.

Kandinsky 2.1 — это улучшенная версия предыдущей модели. Она стала умнее, потому что ее дообучили на 170 млн картинок с подписями, И если в Kandinsky 2.0 было 2 млрд параметров, то в Kandinsky 2.1 их 3,3 млрд.

«Шедеврум» использует в работе каскадную диффузию. Это значит, что сначала он генерирует картинку в виде пикселей, а потом детализирует ее и улучшает в качестве. База картинок у него меньше: 240 млн с подписями. Поэтому «Шедевруму» я буду давать иногда несколько попыток, все-таки база у него меньше, поэтому и картинки могут не получаться с первого раза.

Первый шаг за Kandinsky 2.1:

Выглядит очень неплохо: детализированный голубь, хороший задний фон и ветка под лапами. Жаль, что с лапами у голубя какая-то беда. А так было бы вообще без вопросов.

Теперь очередь «Шедеврум».

Сразу скажу, что «Шедеврум» заметно уступает Kandinsky. Но при этом на третьей картинке все выглядит неплохо: птица достаточно детализированная, у нее видны перья и даже лапа получилась более менее. А про четвертую картинку я промолчу — добро пожаловать в игры 2008-2010 годов.

Дам «Шедевруму» еще один шанс.

Теперь все стало куда круче. Особенно, на третьей картинке. Здесь и лапки смотряться неплохо, и перья стали лучше. Правда, глаз выглядит неестественно.

В общем, тут ставлю 1:1. Обе нейросети выдали неплохие результаты. Теперь усложним задачу.

Этот запрос сложнее, потому что в нем есть конкретное число и больше деталей.

Кошек, конечно, жизнью потрепало. Но, Kandinsky почти справился с задачей: кошек троей и они стоят перед красной дверью. Жаль, что не получилось сгенерировать красивые мордашки.

Теперь очередь за «Шедеврум».

Первый блин опять комом

Тут нейросеть почти везде нарисовала красную дверь, но с кошками совсем беда: их больше и кошками назвать их трудно. Дадим «Шедевруму» еще одну попытку.

Стало получше, особенно на последней картинке: красная дверь и три кошки есть, мордашки и глаза почти нормальные. Но балл все равно отдам Kandinsky — у него все выглядит лучше.

Бонус сравнение. Решил добавить в промпт в «Шедевруме» подсказок, которая рекомендует сама нейросеть. Вот, какие выбрал: реалистично, высокое разрешение, красиво. Заодно посмотрим, как на эти уточнения отреагирует Kandinsky.

Вот обновленный промпт: три кошки стоят перед красной дверью, реалистично, высокое разрешение, красиво. Теперь первым отдувается «Шедеврум».

Мне не нравится ни одна из картинок. Без уточнений было лучше. Посмотрим, что получится у Kandinsky.

Здесь тоже почти без изменений: стала лучше шерсть и одного кота нейросеть зачем-то покрасила.

В общем, здесь 0:0.

Здесь я решил чуть-чуть запутать запрос и дать побольше подробностей.

Первым отвечает Kandinsky:

Как по мне, здесь полное совпадение: космический корабль в виде летающей тарелки и луна.

Теперь очередь за «Шедеврум».

У него тоже получилось неплохо, на двух картинках (2 и 4) полное совпадение с запросом. Жаль, что все пиксельное. Но я опять попробую это исправить дополнительным запросом: космический корабль в виде летающей тарелки летит на луну, реалистично, 4К, высокое разрешение, высокая детализация, мягкое освещение.

В целом, получилось лучше. Но изображение так и не стало в высоком и 4K-разрешении.

Посмотрим, что из этого промпта сделает Kandinsky.

Вот здесь стало действительно лучше. Поэтому еще один балл в копилку Kandinsky.

Обе нейросети — хороший вариант попробовать новые технологии. Но серьезно использовать их в работе я бы не стал: у Stable Diffusion и Midjourney получается генерировать изображения куда лучше. Но если хочется просто попробовать — рекомендую обе. Иногда получаются прикольные варианты.

А как считаете вы, какая из нейросетей лучше? Пишите свои мнения в комментарии.

Еще больше интересного контента о нейросетях в моем телеграм-канале «Миша, давай по новой».

8 комментариев

Вадим Д.

11.05.2023

Да, у обеих пока, пардон, срань полная получается. Слишком велико отставание и, с огромной долей вероятности, создать что-то действительно дельное и своё, уже не получится.

Ответить

Михаил Шумовский

Автор

Да. Некоторые картинки в Шедевруме вообще выглядят так, будто это пиксельная версия реальной фотографии.
Но со временем увеличатся базы и генерация должна стать лучше.

NIKITA ZHEMANOV

Совпадение? Не думаю! 🤔

Да, генерации в Midjourney и Kandinsky похожи между собой. Потому что нейросеть от Сьера училась на зарубежных базах, если я не ошибаюсь.
Я даже сравнивал их между собой и все картинки очень похожи https://vc.ru/services/655939-sravnivaem-kandinsky-2-1-i-midjourney

Сравниваем Kandinsky 2.1 и MidJourney — Сервисы на vc.ru

Татьяна

Делала сравнение этих нейросетей у себя в блоге, но с другими примерами https://vc.ru/services/656292-battl-neyrosetey-sravnivaem-rossiyskie-servisy-kandinsky-shedevrum-i-turbotext. Буду благодарна за лайк)

Баттл нейросетей: сравниваем российские сервисы Kandinsky, «Шедеврум» и TurboText — Сервисы на vc.ru

Интересная статья. Картинки в turbotext ещё не генерировал, но надо будет попробовать

Kimberly Russell

Просто потратили время сравнивая этот кошмар

Сравниваем нейросети Kandinsky 2.1 от Сбера и «Шедеврум» от Яндекса

Но сначала — немного о самих нейросетях

Первый запрос — попугай сидит на ветке

Второй запрос — 3 кошки стоят перед красной дверью

Третий запрос — космический корабль в виде летающей тарелки летит на луну

Что в итоге