Нейросети на проверке: что нравится, а что бесит в генерации изображений

С переходом Midjourney на платную основу многие пользователи начали искать бесплатные аналоги для создания визуального контента. Я регулярно применяю три нейросети, которые неплохо справляются с этой задачей. Это не рейтинг, так как у каждой из этих нейросетей есть свои плюсы и минусы и я пользуюсь ими для разных целей.

Я сравнивал нейросети по трём запросам:

способность рисовать руки (промпт✍: ребёнок поднимает одну руку в жесте «стоп», пальцы раздвинуты и ладонь обращена вперед. Обратить внимание на детали руки. У ребёнка серьезное выражение лица);
способность понимать абстрактные понятия (✍: нарисуй ностальгию. Герои картины - мужчина и женщина);
работа с детальным описанием (✍: робот стоит в городском пейзаже, его броня сверкает под пасмурным небом. Острые, гуманоидные черты робота включают светящиеся зеленые акценты. Его массивные руки готовы к бою, с кабелями и соединениями, видимыми на локтях. Вокруг робота находятся разрушенные здания и дым, поднимающийся из руин).

Для этого эксперимента я написал одинаковые запросы на английском, так как только одна из нейросетей поддерживает русский язык, а также применил похожие стили - «реалистичные фотографии».

Kandinsky — это нейросеть, разработанная для создания изображений на основе текстовых описаний. Она была создана компанией Sber в России и использует методы генеративных моделей, таких как трансформеры и диффузионные процессы, чтобы преобразовывать текст в изображения. Kandinsky позволяет пользователям вводить описание на русском языке, после чего генерирует уникальные изображения, соответствующие запросу.

Доступ к Kandinsky 3.1 предоставляется через сайт, официальный телеграм-бот, виртуального ассистента в приложении «Салют» для Android и на «умных» устройствах с «Салют ТВ» (по команде «Включи художника»). Все возможности сервиса бесплатны.

Генерация изображений с Kandinsky - это настоящий простор для креатива,а результаты часто бывают неожиданными🙂. Для своей работы я чаще пользуюсь телеграм-ботом, так как он всегда со мной в моём мобильнике.

Теперь давайте перейдем к заданиям. Вот как с ними справился телеграм-бот Kandinsky. Напомню, я сформулировал три запроса.

Ребёнок поднимает одну руку в жесте «стоп». Задание выполнено с первой попытки: руки хорошо прорисованы и все пальцы на месте. Конечно, запрос был выполнен не полностью и вместо одной руки ребёнок показывает две, но ладони у Kandinsky прорисованы очень неплохо. Однозначно лайк!

Ребенок поднимает одну руку в жесте «стоп» в стиле «Детальное фото» по версии Kandinsky 3.1

Ностальгию в стиле «Детальное фото» Kandinsky изобразил так: герои прогуливаются по небольшому провинциальному городку, держась за руки. Работа выполнена в стиле ретро-фотографии и, на мой взгляд, передаёт атмосферу понятия «Ностальгия». Можно, конечно, придираться к мелким деталям: странная разметка на дороге, необычные фонари на заднем, пальцы рук героев странно и непривычно переплетаются, но в целом, считаю, что Kandinsky неплохо справился с этим заданием. Если выбрать генерацию «без стиля», то результат может быть абстрактным и философским.

«Ностальгия» в стиле «Детальное фото» в исполнении Kandinsky 3.1

По детальному запросу у Kandinsky видно разрушенные здания на заднем плане и дым, поднимающийся из руин. Сам робот прорисован нечётко, хотя и соответствует запросу. В целом, результат неплохой, но пейзажи выглядят немного размытыми, есть небольшие проблемы с глубиной пространства и детализацией.

Плюсы:

простота использования;
полностью бесплатна;
можно создавать неограниченное количество изображений;
не требует регистрации;
поддерживает русский язык;

Минусы:

часто изображения долго генерируются, особенно если высокая нагрузка на сервер;
пока плохо справляется со сложными, детализированными оптсаниями;
телеграм-бот предлагает только одну картинку;
изображения по одному запросу однообразные;
часто генерирует не то, что нужно. Много времени уходит на составление корректного запроса.

У StarryAI удобный и интуитивно понятный интерфейс, который доступен через веб и мобильные устройства. В StarryAI есть много стилей для генерации изображений от «Anime Vintage» до жуткого «Apocalypse» и ежедневно можно бесплатно получить по 5 монеток (люменов), которых хватает на 2-5 запросов. По одному запросу сеть генерирует 4 изображения. Этот процесс у StarryAI бесяче-долгий. Это, пожалуй, самая задумчивая сеть. И еще StarryAI понимает задания только на английском. Здесь вам в помощь переводчик, - ведь нейросеть не ругает за ошибки🙂.

Итак, что получилось у StarryAI:

Ребёнок поднимает одну руку в жесте «стоп».Только на одном из четырёх изображений результат полностью соответствовал заданию: и одна рука вытянута, и все пальцы на месте. На других картинках с руками полный провал.

Ребёнок поднимает одну руку в жесте «стоп» в стиле «RealVisXL» по версии StarryAI

Нейросети на проверке: что нравится, а что бесит в генерации изображений

StarryAI тоже попытался передать ностальгию в стиле «RealVisXL» через ретро-фотографию. Атмосфера воспоминаний получилась на всех четырёх картинках, но везде есть проблемы с деталями, например, на одном из изображений у невесты две правых руки. Я бы поменял стиль или детализировал запрос, то есть потратил бы ещё немного времени, поэкспериментировал.
Вывод: абстрактные понятия даются StarryAI с трудом.

По запросу с роботом на одном из четырёх изображений были красные огни, хотя в промпте был указан зелёный цвет, но детали у роботов на всех картинках были прорисованы чётко и соответствовали заданию. В целом, результат по детализированному запросу меня устроил. StarryAI хорошо справляется с такими заданиями в разных стилях.

Плюсы:

Платформа интуитивно понятна даже для начинающих пользователей;
StarryAI специализируется на создании абстрактных и сюрреалистических изображений, что подходит для креативных проектов;
ежедневные челенджи на разные темы с возможностью выиграть 100 люменов;
возможность кастомизации приложения при помощи загрузки собственных изображений;
пять бесплатных люменов каждый день;

Минусы:

Ограниченный контроль над деталями;
в зависимости от сложности запроса, происходит долгая генерация изображения; самое «задумчивое» приложение из трёх;
возможности по настройке параметров и стиля сильно ограничены;
в бесплатной версии с пользователя берут разное количество монет в зависимости от сложности задания. Количество списанных люменов узнаешь только после генерации изображений;
протестировать нейросеть невозможно без регистрации.

Leonardo AI — это нейросеть, работающая при помощи искусственного интеллекта, генерирует изображения по текстовому описанию или на основе загруженной картинки-референса. Интерфейс сложный для новичков и потребуется время, чтобы в нём разобраться. Leonardo AI доступен через веб и мобильные устройства, где есть бесплатный тариф: пользователи ежедневно получают 150 монет (токенов), которых хватит на 6 -10 генераций в зависимости от стиля и сложности задания. Каждый раз сеть генерирует по 4 картинки на один промпт и их количество можно изменить только в платном тарифе. Платформа подходит для создания не только качественных картинок, но и 3D-текстур.

Посмотрим, что получилось у Leonardo AI.

Ребёнок поднимает одну руку в жесте «стоп». На всех четырёх изображениях, созданных с помощью Leonardo AI, дети поднимают одну руку в жесте «стоп», но прорисовка пальцев оставляет желать лучшего: ни на одном из изображений у детей нет ровно пяти пальцев — их либо больше, либо меньше🤯. Возможно, с другими стилями Leonardo AI справится лучше, но в «Stock Photo» это задание оказалось слишком сложным😓.

Leonardo AI, как и две другие нейросети, изображает "Ностальгию" через старые фотографии молодой влюблённой пары. Картинки получились очень реалистичными и атмосферными, но проблемы с изображением рук никуда не делись и именно этот момент портит всё впечатление, хотя лица людей нарисованы красиво и выразительно. Возможно, потребуется изменить стиль изображения или доработать промпты, так как с абстрактными запросами Leonardo AI справляется лишь частично: он хорошо передаёт атмосферу, но теряется в деталях.

С роботами у Leonardo AI вообще никаких проблем! Все четыре изображения выполнены чётко: и сами роботы, и разрушенные здания, и даже дым, поднимающийся из руин, прорисованы с высокой детализацией🔥 Ребята, пишите детальные промпты!

Плюсы:

Пользователи могут обучать собственные модели;
отлично справляется с созданием детализированных изображений;
множество параметров для настройки стиля и содержания изображений;
подходит для интеграции в профессиональные дизайнерские и арт-проекты благодаря совместимости с другими инструментами и форматами;
150 бесплатных токенов каждый день.

Минусы:

из-за обилия функций и настроек платформа сложная для новичков;
невозможно протестировать без регистрации;
за продвинутые функции, такие как обучение кастомных моделей и доступ к высоким разрешениям, нужно платить.

В работе с нейросетями важно понимать, что каждая из них имеет свои сильные стороны и подходит для разных задач. Одни лучше справляются с реалистичными изображениями, другие — с креативными стилями или абстрактными концепциями. Пробуйте разные инструменты, комбинируйте стили и подходы, пишите интересные задания.

Экспериментируйте💫✨

P.S. Если вам нужны люди на картинке, постарайтесь скрыть руки — так они хотя бы не превратятся в нечто, похожее на осьминога!

Нейросети на проверке: что нравится, а что бесит в генерации изображений

Kandinsky 3.1

Плюсы и минусы Kandinsky 3.1:

StarryAI

Плюсы и минусы StarryAI:

Leonardo AI

Плюсы и минусы Leonardo AI: