Вы наверняка уже слышали про Midjourney и Dall-e 2 — знаменитые нейросети, которые создают изображения всего за несколько кликов. Но что если я скажу, что на российском рынке появились настоящие чудо-инструменты, которые имеют все шансы затмить другие аналоги?В этом статье я расскажу вам о двух нейросетях от Сбер и Яндекс, а также проведу их сравнительный анализ. Какая из них лучше и почему? Обязательно дочитайте до конца, чтобы узнать.Обзор Kandinsky 2.1Сбер запустил Kandinsky 2.1 — обновленную нейросеть, которая генерирует картинки по текстовым запросам. Это новое поколение одноименной нейросети для генерации картинок. Модель улучшили и обучили на 170 миллионах связок «текст-изображение». Kandinsky 2.1 содержит 3,3 миллиарда параметров, к примеру предыдущая Kandinsky 2.0 содержала только 2 миллиарда.Принцип работы нейросети не отличается от конкурентов — она рисует изображения в разных стилях на основе текстового запроса. Но разработчики «Кандинского» заявляют о поддержке более 100 языков, в том числе и русского, чем не могут похвастаться англоязычные Midjourney или Dall-e 2. Это сильно выделяет сервис на фоне других, для работы с которыми русскоязычным пользователям требовалось знание английского языка или использование переводчика.У нейросети от Сбера есть четыре основных режима работы:Генерация по тексту. Пишете текстовый запрос (промпт), а нейросеть нарисует по нему изображение.Смешивание картинок. Можно добавить две картинки и посмотреть на микс от нейросети.Смешивание картинки и текста. Можно взять картинку и попросить нейросеть дополнить ее.Вариации картинки — меняет стилистику готовой картинки.Протестировать нейросеть можно на нескольких платформах:В Телеграм-боте. В нем доступны все 4 режима генерации.2. На платформе MLSpace 3. На сайте rudalle.ru4. В голосовом помощнике «Салют» от Сбера, а также на сайте fusionbrain.aiЯ остановил свой выбор на двух вариантах: сайте fusionbrain.ai, на котором доступны функции генерации по тексту и режимы доработки изображений, а также Телеграм-боте, чтобы протестировать остальные функции. Основной фишкой Кандинского является наличие более 20 стилей: от аниме и киберпанка до картин Айвазовского и даже хохломы — старинной русской декоративной росписи. К примеру, вот так нейросеть видит морской пейзаж, написанный маслом:Теперь просим создать картинку по тому же запросу в стиле художника Айвазовского:Продолжаем эксперимент и меняем стиль на Мультфильм:Результат меня порадовал, все три картины значительно отличаются исходя из стиля. Это дает возможность дополнять и изменять любое изображение в один клик без использования большого количества промптов. Функция действительно удобная. Теперь перехожу в Телеграм-бот и пробую создать вариации готового изображения. Просто загружаю фото и кликаю на нужной функции. На выходе получил вот такое изображение. Стилистика и формат изображения действительно немного поменялись. Такая функция отлично подойдет тем, кому нужно немного видоизменить готовые картинки.Что если использовать эти функции с людьми или животными? Я попробовал смешать две картинки в стиле аниме.Результат получился не очень качественный, все таки рисовку персонажей необходимо доработать.Обзор «Шедеврум»Теперь перейдем к следующему гвоздю программы — нейросети от Яндекс. Вдохновившись успехами Midjourney, «Яндекс» выпустил свою нейросеть Шедеврум для генерации картинок по текстовому запросу.Как пишут сами разработчики: «Шедеврум» — это приложение, в котором пользователи могут генерировать картинки по текстовому описанию с помощью нейросетей. Приложение работает по принципу соцсети — можно создавать свои изображения, просматривать ленту с публикациями других пользователей, ставить лайки, делиться во внешних соцсетях или пересылать в мессенджерах.И еще нейросеть доступна только в приложении. То есть опробовать ее в браузере с компьютера возможности пока нет.Работает нейросеть по принципу каскадной диффузии — то есть сначала она создаёт на основе текста пиксельный набросок, а затем насыщает его деталями и увеличивает качество. Чтобы «Шедеврум» умел так делать, его обучили на датасете из 240 млн картинок с подписями.В приложении есть лента публикаций, где вы можете лайкать и делиться изображениям других пользователей, а также опубликовать свои.Здорово, что под каждой картинкой в ленте указан использованный запрос. То есть вы можете с легкостью позаимствовать идеи других пользователей, считай бесплатная библиотека промптов.Я попробовал создать изображение зимнего леса. Генерация заняла около 2 минут в связи с большой нагрузкой. На выходе я получил 4 различные изображения, которые можно сохранить или поделиться ими в ленте.Сравниваем Kandinsky и ШедеврумПереходим к тесту запросов! Все очень просто, я буду давать одинаковые запросы двум нейросетям и сравнивать результаты. Начну с простого. Первый запрос — Девушка на фоне ночного города в стиле киберпанк. Чтобы все было честно, в Кандинском я генерирую картинки без стиля. Кандинский справился с задачей очень неплохо, я бы даже сказал отлично:Шедеврум запрос понял, но вот прорисовка деталей несколько хромает, в особенности по сравнению с другой нейросетью.Следующий запрос — корабль-призрак Кандинский:Шедеврум:Оба варианта, по моему мнению, справились с задачей. Но стоит отметить, что качество изображения у Кандинского на порядок выше. Посмотрим, как нейросети видят выражение «конь в пальто»Кандинский:Шедеврум:В целом, обе нейросети справились со своей задачей, но не без промахов. Интересно, как нейросети поймут выражение «в каждом есть темная и светлая сторона» Кандинский решил примкнуть к классике и изобразить Дарт Вейдера. У Шедеврума, как по мне, получилось одно попадание.Как известно, для получения качественного результата в промпте нужно указывать больше конкретной информации.Я попробовал немного конкретизировать следующий запрос: «девушка, рыжие кудрявые волосы, красивое лицо, голубые глаза, высокая детализация, мягкое освещение, высокое разрешение».Кандинский выдал хороший результат. Шедеврум тоже справился с задачей, но как по мне последняя картинка вышла самой удачной.Просим создать милого персонажа мультфильма в стиле Pixar Кандинский предложил мне следующий милый вариант:Шедеврум тоже справился с задачей и даже сгенерировал уже известных персонажей:Ради эксперимента я решил использовать такие же запросы в Midjourney, только на английском языке, и вот какой результат я получил:123456Какая нейросеть лучше?Начну с достоинств обеих. Главная особенность двух нейросетей в том, что они поддерживают русский язык. Можно описать изображение, задать стилистику, уточнить детали. В отличие от большинства аналогичных сервисов, Kandinsky 2.1 и Шедеврум довольно хорошо понимают русскоязычные запросы и учитывают их при генерации. Как по мне, Кандинский выигрывает за счет своего функционала и возможности генерировать картинки в разных стилях. Да, порой он выдает не совсем удачные результаты. Но зачастую достаточно просто задать другой стиль и изображение выйдет в разы лучше. Стоит отметить, что приложение Шедеврум достаточно удобное для поиска идей и для публикации своих результатов.Обе нейросети имеют все шансы затмить конкурентов на рынке, но им требуются некоторые доработки. В этой статье мы изучили две нашумевшие нейросети от Сбера и Яндекс, а также сравнили их функционал и результаты. Не забывайте подписываться на мой Телеграм-канал О нейросетях, там я выкладываю полезные статьи и гайды по работе с нейросетями.
Миджони самый топ, но кандинский топ тк бесплатный 😂
Судя по результатам выше, Миджони так себе нейросеть, ничего особенного, кроме распиаренности😏
Никакая из этих нейросетей не лучше)
а какая тогда для вас нейросеть лучшая?
Хорошо бы почитать статью о промтах кандинскому..