Нейросети на проверке: что нравится, а что бесит в генерации изображений

Сгенерировано при помощи ИИ
Сгенерировано при помощи ИИ

С переходом Midjourney на платную основу многие пользователи начали искать бесплатные аналоги для создания визуального контента. Я регулярно применяю три нейросети, которые неплохо справляются с этой задачей. Это не рейтинг, так как у каждой из этих нейросетей есть свои плюсы и минусы и я пользуюсь ими для разных целей.

Я сравнивал нейросети по трём запросам:

  • способность рисовать руки (промпт✍: ребёнок поднимает одну руку в жесте «стоп», пальцы раздвинуты и ладонь обращена вперед. Обратить внимание на детали руки. У ребёнка серьезное выражение лица);
  • способность понимать абстрактные понятия (✍: нарисуй ностальгию. Герои картины - мужчина и женщина);
  • работа с детальным описанием (✍: робот стоит в городском пейзаже, его броня сверкает под пасмурным небом. Острые, гуманоидные черты робота включают светящиеся зеленые акценты. Его массивные руки готовы к бою, с кабелями и соединениями, видимыми на локтях. Вокруг робота находятся разрушенные здания и дым, поднимающийся из руин).

Для этого эксперимента я написал одинаковые запросы на английском, так как только одна из нейросетей поддерживает русский язык, а также применил похожие стили - «реалистичные фотографии».

Kandinsky 3.1

Kandinsky — это нейросеть, разработанная для создания изображений на основе текстовых описаний. Она была создана компанией Sber в России и использует методы генеративных моделей, таких как трансформеры и диффузионные процессы, чтобы преобразовывать текст в изображения. Kandinsky позволяет пользователям вводить описание на русском языке, после чего генерирует уникальные изображения, соответствующие запросу.

Доступ к Kandinsky 3.1 предоставляется через сайт, официальный телеграм-бот, виртуального ассистента в приложении «Салют» для Android и на «умных» устройствах с «Салют ТВ» (по команде «Включи художника»). Все возможности сервиса бесплатны.

Генерация изображений с Kandinsky - это настоящий простор для креатива,а результаты часто бывают неожиданными🙂. Для своей работы я чаще пользуюсь телеграм-ботом, так как он всегда со мной в моём мобильнике.

Теперь давайте перейдем к заданиям. Вот как с ними справился телеграм-бот Kandinsky. Напомню, я сформулировал три запроса.

  • Ребёнок поднимает одну руку в жесте «стоп». Задание выполнено с первой попытки: руки хорошо прорисованы и все пальцы на месте. Конечно, запрос был выполнен не полностью и вместо одной руки ребёнок показывает две, но ладони у Kandinsky прорисованы очень неплохо. Однозначно лайк!
Ребенок поднимает одну руку в жесте «стоп» в стиле «Детальное фото» по версии Kandinsky 3.1
Ребенок поднимает одну руку в жесте «стоп» в стиле «Детальное фото» по версии Kandinsky 3.1
  • Ностальгию в стиле «Детальное фото» Kandinsky изобразил так: герои прогуливаются по небольшому провинциальному городку, держась за руки. Работа выполнена в стиле ретро-фотографии и, на мой взгляд, передаёт атмосферу понятия «Ностальгия». Можно, конечно, придираться к мелким деталям: странная разметка на дороге, необычные фонари на заднем, пальцы рук героев странно и непривычно переплетаются, но в целом, считаю, что Kandinsky неплохо справился с этим заданием. Если выбрать генерацию «без стиля», то результат может быть абстрактным и философским.
«Ностальгия» в стиле «Детальное фото» в исполнении Kandinsky 3.1
«Ностальгия» в стиле «Детальное фото» в исполнении Kandinsky 3.1
  • По детальному запросу у Kandinsky видно разрушенные здания на заднем плане и дым, поднимающийся из руин. Сам робот прорисован нечётко, хотя и соответствует запросу. В целом, результат неплохой, но пейзажи выглядят немного размытыми, есть небольшие проблемы с глубиной пространства и детализацией.
Так видит робота Kandinsky 3.1
Так видит робота Kandinsky 3.1

Плюсы и минусы Kandinsky 3.1:

Плюсы:

  • простота использования;
  • полностью бесплатна;
  • можно создавать неограниченное количество изображений;
  • не требует регистрации;
  • поддерживает русский язык;

Минусы:

  • часто изображения долго генерируются, особенно если высокая нагрузка на сервер;
  • пока плохо справляется со сложными, детализированными оптсаниями;
  • телеграм-бот предлагает только одну картинку;
  • изображения по одному запросу однообразные;
  • часто генерирует не то, что нужно. Много времени уходит на составление корректного запроса.

StarryAI

У StarryAI удобный и интуитивно понятный интерфейс, который доступен через веб и мобильные устройства. В StarryAI есть много стилей для генерации изображений от «Anime Vintage» до жуткого «Apocalypse» и ежедневно можно бесплатно получить по 5 монеток (люменов), которых хватает на 2-5 запросов. По одному запросу сеть генерирует 4 изображения. Этот процесс у StarryAI бесяче-долгий. Это, пожалуй, самая задумчивая сеть. И еще StarryAI понимает задания только на английском. Здесь вам в помощь переводчик, - ведь нейросеть не ругает за ошибки🙂.

Итак, что получилось у StarryAI:

  • Ребёнок поднимает одну руку в жесте «стоп».Только на одном из четырёх изображений результат полностью соответствовал заданию: и одна рука вытянута, и все пальцы на месте. На других картинках с руками полный провал.
  • StarryAI тоже попытался передать ностальгию в стиле «RealVisXL» через ретро-фотографию. Атмосфера воспоминаний получилась на всех четырёх картинках, но везде есть проблемы с деталями, например, на одном из изображений у невесты две правых руки. Я бы поменял стиль или детализировал запрос, то есть потратил бы ещё немного времени, поэкспериментировал.
    Вывод: абстрактные понятия даются StarryAI с трудом.
  • По запросу с роботом на одном из четырёх изображений были красные огни, хотя в промпте был указан зелёный цвет, но детали у роботов на всех картинках были прорисованы чётко и соответствовали заданию. В целом, результат по детализированному запросу меня устроил. StarryAI хорошо справляется с такими заданиями в разных стилях.

Плюсы и минусы StarryAI:

Плюсы:

  • Платформа интуитивно понятна даже для начинающих пользователей;
  • StarryAI специализируется на создании абстрактных и сюрреалистических изображений, что подходит для креативных проектов;
  • ежедневные челенджи на разные темы с возможностью выиграть 100 люменов;
  • возможность кастомизации приложения при помощи загрузки собственных изображений;
  • пять бесплатных люменов каждый день;

Минусы:

  • Ограниченный контроль над деталями;
  • в зависимости от сложности запроса, происходит долгая генерация изображения; самое «задумчивое» приложение из трёх;
  • возможности по настройке параметров и стиля сильно ограничены;
  • в бесплатной версии с пользователя берут разное количество монет в зависимости от сложности задания. Количество списанных люменов узнаешь только после генерации изображений;
  • протестировать нейросеть невозможно без регистрации.

Leonardo AI

Leonardo AI — это нейросеть, работающая при помощи искусственного интеллекта, генерирует изображения по текстовому описанию или на основе загруженной картинки-референса. Интерфейс сложный для новичков и потребуется время, чтобы в нём разобраться. Leonardo AI доступен через веб и мобильные устройства, где есть бесплатный тариф: пользователи ежедневно получают 150 монет (токенов), которых хватит на 6 -10 генераций в зависимости от стиля и сложности задания. Каждый раз сеть генерирует по 4 картинки на один промпт и их количество можно изменить только в платном тарифе. Платформа подходит для создания не только качественных картинок, но и 3D-текстур.

Посмотрим, что получилось у Leonardo AI.

  • Ребёнок поднимает одну руку в жесте «стоп». На всех четырёх изображениях, созданных с помощью Leonardo AI, дети поднимают одну руку в жесте «стоп», но прорисовка пальцев оставляет желать лучшего: ни на одном из изображений у детей нет ровно пяти пальцев — их либо больше, либо меньше🤯. Возможно, с другими стилями Leonardo AI справится лучше, но в «Stock Photo» это задание оказалось слишком сложным😓.
  • Leonardo AI, как и две другие нейросети, изображает "Ностальгию" через старые фотографии молодой влюблённой пары. Картинки получились очень реалистичными и атмосферными, но проблемы с изображением рук никуда не делись и именно этот момент портит всё впечатление, хотя лица людей нарисованы красиво и выразительно. Возможно, потребуется изменить стиль изображения или доработать промпты, так как с абстрактными запросами Leonardo AI справляется лишь частично: он хорошо передаёт атмосферу, но теряется в деталях.
  • С роботами у Leonardo AI вообще никаких проблем! Все четыре изображения выполнены чётко: и сами роботы, и разрушенные здания, и даже дым, поднимающийся из руин, прорисованы с высокой детализацией🔥 Ребята, пишите детальные промпты!

Плюсы и минусы Leonardo AI:

Плюсы:

  • Пользователи могут обучать собственные модели;
  • отлично справляется с созданием детализированных изображений;
  • множество параметров для настройки стиля и содержания изображений;
  • подходит для интеграции в профессиональные дизайнерские и арт-проекты благодаря совместимости с другими инструментами и форматами;
  • 150 бесплатных токенов каждый день.

Минусы:

  • из-за обилия функций и настроек платформа сложная для новичков;
  • невозможно протестировать без регистрации;
  • за продвинутые функции, такие как обучение кастомных моделей и доступ к высоким разрешениям, нужно платить.

В работе с нейросетями важно понимать, что каждая из них имеет свои сильные стороны и подходит для разных задач. Одни лучше справляются с реалистичными изображениями, другие — с креативными стилями или абстрактными концепциями. Пробуйте разные инструменты, комбинируйте стили и подходы, пишите интересные задания.

Экспериментируйте💫✨

P.S. Если вам нужны люди на картинке, постарайтесь скрыть руки — так они хотя бы не превратятся в нечто, похожее на осьминога!

22
1 комментарий

Вообще то само то что такие изображения можно генерировать это буквально чудо, а все остальное это от лукавого, так сказать...

2