{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Сравниваем нейросети Kandinsky 2.1 от Сбера и «Шедеврум» от Яндекса

Чтобы поиграться с генеративными нейросетями, необязательно идти в Midjourney или Stable Diffusion. В России есть свои нейросети, которые тоже неплохо рисуют: Kandinsky от Сбера и «Шедеврум» от Яндекса. Разбираемся, какая из них работает лучше и генерирует круче.

Но сначала — немного о самих нейросетях

Kandinsky 2.1 — это улучшенная версия предыдущей модели. Она стала умнее, потому что ее дообучили на 170 млн картинок с подписями, И если в Kandinsky 2.0 было 2 млрд параметров, то в Kandinsky 2.1 их 3,3 млрд.

«Шедеврум» использует в работе каскадную диффузию. Это значит, что сначала он генерирует картинку в виде пикселей, а потом детализирует ее и улучшает в качестве. База картинок у него меньше: 240 млн с подписями. Поэтому «Шедевруму» я буду давать иногда несколько попыток, все-таки база у него меньше, поэтому и картинки могут не получаться с первого раза.

Первый запрос — попугай сидит на ветке

Первый шаг за Kandinsky 2.1:

Вариант голубя от Kandinsky 2.1

Выглядит очень неплохо: детализированный голубь, хороший задний фон и ветка под лапами. Жаль, что с лапами у голубя какая-то беда. А так было бы вообще без вопросов.

Теперь очередь «Шедеврум».

А это уже вариант от «Шедеврум»

Сразу скажу, что «Шедеврум» заметно уступает Kandinsky. Но при этом на третьей картинке все выглядит неплохо: птица достаточно детализированная, у нее видны перья и даже лапа получилась более менее. А про четвертую картинку я промолчу — добро пожаловать в игры 2008-2010 годов.

Дам «Шедевруму» еще один шанс.

Теперь все стало куда круче. Особенно, на третьей картинке. Здесь и лапки смотряться неплохо, и перья стали лучше. Правда, глаз выглядит неестественно.

В общем, тут ставлю 1:1. Обе нейросети выдали неплохие результаты. Теперь усложним задачу.

Второй запрос — 3 кошки стоят перед красной дверью

Этот запрос сложнее, потому что в нем есть конкретное число и больше деталей.

Кошек, конечно, жизнью потрепало. Но, Kandinsky почти справился с задачей: кошек троей и они стоят перед красной дверью. Жаль, что не получилось сгенерировать красивые мордашки.

Теперь очередь за «Шедеврум».

Первый блин опять комом

Тут нейросеть почти везде нарисовала красную дверь, но с кошками совсем беда: их больше и кошками назвать их трудно. Дадим «Шедевруму» еще одну попытку.

Стало получше, особенно на последней картинке: красная дверь и три кошки есть, мордашки и глаза почти нормальные. Но балл все равно отдам Kandinsky — у него все выглядит лучше.

Бонус сравнение. Решил добавить в промпт в «Шедевруме» подсказок, которая рекомендует сама нейросеть. Вот, какие выбрал: реалистично, высокое разрешение, красиво. Заодно посмотрим, как на эти уточнения отреагирует Kandinsky.

Вот обновленный промпт: три кошки стоят перед красной дверью, реалистично, высокое разрешение, красиво. Теперь первым отдувается «Шедеврум».

Мне не нравится ни одна из картинок. Без уточнений было лучше. Посмотрим, что получится у Kandinsky.

Здесь тоже почти без изменений: стала лучше шерсть и одного кота нейросеть зачем-то покрасила.

В общем, здесь 0:0.

Третий запрос — космический корабль в виде летающей тарелки летит на луну

Здесь я решил чуть-чуть запутать запрос и дать побольше подробностей.

Первым отвечает Kandinsky:

Как по мне, здесь полное совпадение: космический корабль в виде летающей тарелки и луна.

Теперь очередь за «Шедеврум».

У него тоже получилось неплохо, на двух картинках (2 и 4) полное совпадение с запросом. Жаль, что все пиксельное. Но я опять попробую это исправить дополнительным запросом: космический корабль в виде летающей тарелки летит на луну, реалистично, 4К, высокое разрешение, высокая детализация, мягкое освещение.

В целом, получилось лучше. Но изображение так и не стало в высоком и 4K-разрешении.

Посмотрим, что из этого промпта сделает Kandinsky.

Вот здесь стало действительно лучше. Поэтому еще один балл в копилку Kandinsky.

Что в итоге

Обе нейросети — хороший вариант попробовать новые технологии. Но серьезно использовать их в работе я бы не стал: у Stable Diffusion и Midjourney получается генерировать изображения куда лучше. Но если хочется просто попробовать — рекомендую обе. Иногда получаются прикольные варианты.

А как считаете вы, какая из нейросетей лучше? Пишите свои мнения в комментарии.

Еще больше интересного контента о нейросетях в моем телеграм-канале «Миша, давай по новой».

0
8 комментариев
Написать комментарий...
Вадим Д.

Да, у обеих пока, пардон, срань полная получается. Слишком велико отставание и, с огромной долей вероятности, создать что-то действительно дельное и своё, уже не получится.

Ответить
Развернуть ветку
Михаил Шумовский
Автор

Да. Некоторые картинки в Шедевруме вообще выглядят так, будто это пиксельная версия реальной фотографии.
Но со временем увеличатся базы и генерация должна стать лучше.

Ответить
Развернуть ветку
NIKITA ZHEMANOV

Совпадение? Не думаю! 🤔

Ответить
Развернуть ветку
Михаил Шумовский
Автор

Да, генерации в Midjourney и Kandinsky похожи между собой. Потому что нейросеть от Сьера училась на зарубежных базах, если я не ошибаюсь.
Я даже сравнивал их между собой и все картинки очень похожи https://vc.ru/services/655939-sravnivaem-kandinsky-2-1-i-midjourney

Ответить
Развернуть ветку
Татьяна

Делала сравнение этих нейросетей у себя в блоге, но с другими примерами https://vc.ru/services/656292-battl-neyrosetey-sravnivaem-rossiyskie-servisy-kandinsky-shedevrum-i-turbotext. Буду благодарна за лайк)

Ответить
Развернуть ветку
Михаил Шумовский
Автор

Интересная статья. Картинки в turbotext ещё не генерировал, но надо будет попробовать

Ответить
Развернуть ветку
Kimberly Russell

Просто потратили время сравнивая этот кошмар

Ответить
Развернуть ветку
Михаил Шумовский
Автор

А почему кошмар?
У Кандинского вполне неплохие результаты.

Ответить
Развернуть ветку
5 комментариев
Раскрывать всегда