Какая нейросеть лучше? Kandinsky 2.1 vs Шедеврум

Вы наверняка уже слышали про Midjourney и Dall-e 2 — знаменитые нейросети, которые создают изображения всего за несколько кликов. Но что если я скажу, что на российском рынке появились настоящие чудо-инструменты, которые имеют все шансы затмить другие аналоги?

В этом статье я расскажу вам о двух нейросетях от Сбер и Яндекс, а также проведу их сравнительный анализ. Какая из них лучше и почему? Обязательно дочитайте до конца, чтобы узнать.

Сбер запустил Kandinsky 2.1 — обновленную нейросеть, которая генерирует картинки по текстовым запросам. Это новое поколение одноименной нейросети для генерации картинок. Модель улучшили и обучили на 170 миллионах связок «текст-изображение». Kandinsky 2.1 содержит 3,3 миллиарда параметров, к примеру предыдущая Kandinsky 2.0 содержала только 2 миллиарда.

Какая нейросеть лучше? Kandinsky 2.1 vs Шедеврум

Принцип работы нейросети не отличается от конкурентов — она рисует изображения в разных стилях на основе текстового запроса. Но разработчики «Кандинского» заявляют о поддержке более 100 языков, в том числе и русского, чем не могут похвастаться англоязычные Midjourney или Dall-e 2. Это сильно выделяет сервис на фоне других, для работы с которыми русскоязычным пользователям требовалось знание английского языка или использование переводчика.

У нейросети от Сбера есть четыре основных режима работы:

Генерация по тексту. Пишете текстовый запрос (промпт), а нейросеть нарисует по нему изображение.
Смешивание картинок. Можно добавить две картинки и посмотреть на микс от нейросети.
Смешивание картинки и текста. Можно взять картинку и попросить нейросеть дополнить ее.
Вариации картинки — меняет стилистику готовой картинки.

Протестировать нейросеть можно на нескольких платформах:

В Телеграм-боте. В нем доступны все 4 режима генерации.

2. На платформе MLSpace

3. На сайте rudalle.ru

4. В голосовом помощнике «Салют» от Сбера, а также на сайте fusionbrain.ai

Я остановил свой выбор на двух вариантах: сайте fusionbrain.ai, на котором доступны функции генерации по тексту и режимы доработки изображений, а также Телеграм-боте, чтобы протестировать остальные функции.

Основной фишкой Кандинского является наличие более 20 стилей: от аниме и киберпанка до картин Айвазовского и даже хохломы — старинной русской декоративной росписи.

К примеру, вот так нейросеть видит морской пейзаж, написанный маслом:

Теперь просим создать картинку по тому же запросу в стиле художника Айвазовского:

Продолжаем эксперимент и меняем стиль на Мультфильм:

Результат меня порадовал, все три картины значительно отличаются исходя из стиля. Это дает возможность дополнять и изменять любое изображение в один клик без использования большого количества промптов. Функция действительно удобная.

Теперь перехожу в Телеграм-бот и пробую создать вариации готового изображения. Просто загружаю фото и кликаю на нужной функции.

На выходе получил вот такое изображение. Стилистика и формат изображения действительно немного поменялись. Такая функция отлично подойдет тем, кому нужно немного видоизменить готовые картинки.

Что если использовать эти функции с людьми или животными? Я попробовал смешать две картинки в стиле аниме.

Результат получился не очень качественный, все таки рисовку персонажей необходимо доработать.

Теперь перейдем к следующему гвоздю программы — нейросети от Яндекс. Вдохновившись успехами Midjourney, «Яндекс» выпустил свою нейросеть Шедеврум для генерации картинок по текстовому запросу.

Как пишут сами разработчики: «Шедеврум» — это приложение, в котором пользователи могут генерировать картинки по текстовому описанию с помощью нейросетей. Приложение работает по принципу соцсети — можно создавать свои изображения, просматривать ленту с публикациями других пользователей, ставить лайки, делиться во внешних соцсетях или пересылать в мессенджерах.

И еще нейросеть доступна только в приложении. То есть опробовать ее в браузере с компьютера возможности пока нет.

Работает нейросеть по принципу каскадной диффузии — то есть сначала она создаёт на основе текста пиксельный набросок, а затем насыщает его деталями и увеличивает качество. Чтобы «Шедеврум» умел так делать, его обучили на датасете из 240 млн картинок с подписями.

В приложении есть лента публикаций, где вы можете лайкать и делиться изображениям других пользователей, а также опубликовать свои.

Здорово, что под каждой картинкой в ленте указан использованный запрос. То есть вы можете с легкостью позаимствовать идеи других пользователей, считай бесплатная библиотека промптов.

Я попробовал создать изображение зимнего леса. Генерация заняла около 2 минут в связи с большой нагрузкой. На выходе я получил 4 различные изображения, которые можно сохранить или поделиться ими в ленте.

Переходим к тесту запросов! Все очень просто, я буду давать одинаковые запросы двум нейросетям и сравнивать результаты.

Начну с простого. Первый запрос — Девушка на фоне ночного города в стиле киберпанк. Чтобы все было честно, в Кандинском я генерирую картинки без стиля.

Кандинский справился с задачей очень неплохо, я бы даже сказал отлично:

Шедеврум запрос понял, но вот прорисовка деталей несколько хромает, в особенности по сравнению с другой нейросетью.

Следующий запрос — корабль-призрак

Кандинский:

Шедеврум:

Оба варианта, по моему мнению, справились с задачей. Но стоит отметить, что качество изображения у Кандинского на порядок выше.

Посмотрим, как нейросети видят выражение «конь в пальто»

Кандинский:

Шедеврум:

В целом, обе нейросети справились со своей задачей, но не без промахов.

Интересно, как нейросети поймут выражение «в каждом есть темная и светлая сторона»

Кандинский решил примкнуть к классике и изобразить Дарт Вейдера.

У Шедеврума, как по мне, получилось одно попадание.

Как известно, для получения качественного результата в промпте нужно указывать больше конкретной информации.

Я попробовал немного конкретизировать следующий запрос: «девушка, рыжие кудрявые волосы, красивое лицо, голубые глаза, высокая детализация, мягкое освещение, высокое разрешение».

Кандинский выдал хороший результат.

Шедеврум тоже справился с задачей, но как по мне последняя картинка вышла самой удачной.

Просим создать милого персонажа мультфильма в стиле Pixar

Кандинский предложил мне следующий милый вариант:

Шедеврум тоже справился с задачей и даже сгенерировал уже известных персонажей:

Ради эксперимента я решил использовать такие же запросы в Midjourney, только на английском языке, и вот какой результат я получил:

Начну с достоинств обеих. Главная особенность двух нейросетей в том, что они поддерживают русский язык. Можно описать изображение, задать стилистику, уточнить детали. В отличие от большинства аналогичных сервисов, Kandinsky 2.1 и Шедеврум довольно хорошо понимают русскоязычные запросы и учитывают их при генерации.

Как по мне, Кандинский выигрывает за счет своего функционала и возможности генерировать картинки в разных стилях. Да, порой он выдает не совсем удачные результаты. Но зачастую достаточно просто задать другой стиль и изображение выйдет в разы лучше.

Стоит отметить, что приложение Шедеврум достаточно удобное для поиска идей и для публикации своих результатов.

Обе нейросети имеют все шансы затмить конкурентов на рынке, но им требуются некоторые доработки.

В этой статье мы изучили две нашумевшие нейросети от Сбера и Яндекс, а также сравнили их функционал и результаты. Не забывайте подписываться на мой Телеграм-канал О нейросетях, там я выкладываю полезные статьи и гайды по работе с нейросетями.