Тестируем нейросети для генерации изображений

Недавно мы рассказывали о том, что активно используем нейросети при работе над цифровыми сервисами.

В новой статье мы поделимся результатами собственного сравнительного анализа нейросетей для генерации изображений. Читайте, сравнивайте характеристики и выбирайте подходящий для вас инструмент. Важно отметить, что исследование проводилось в начале апреля этого года.

Тестируем нейросети для генерации изображений

Нейронная сеть — это не просто компьютерная программа. Это самообучаемая система «искусственного интеллекта», работающая по принципу человеческого мозга.

Чтобы выдать готовую картинку, нейросети прогоняют входные данные через систему «нейронов» — более простых программ, взаимодействующих между собой.

Уже сейчас для «воображения» нейросетей нет ничего невозможного. Они могут нарисовать изображение по текстовому запросу, по исходной картинке, с помощью схематичного наброска или референсов. Некоторые сервисы специализируются на генерировании лиц.

Мы протестировали работу 9 самых популярных сервисов, рисующих картинки по текстовому запросу и сделали выводы: общее впечатление основано на субъективном мнении наших экспертов.

Сервисы тестировали на двух запросах:

простой: «красивый кот»;
более сложный: «красивый мужчина-фермер с чётко прорисованным лицом собирает яблоки в корзину в яблоневом саду».

Это наиболее художественная сеть от независимой исследовательской лаборатории под руководством бывшего инженера NASA.

Midjourney относится к классу диффузионных нейронных сетей, то есть состоит как бы из двух нейросетей: одна отвечает за распознавание текста, другая — за генерацию изображений.

Инструмент быстро завоёвывает популярность, потому что удобен в использовании, позволяет создавать сложные арты, креативные иллюстрации и максимально детализированные картины.

Работает через Discord, поэтому необходима регистрация в мессенджере. Создать картинку можно в одном из общих чатов, либо добавить на свой сервер Midjourney.

Стоимость:

Некоторое время назад была доступна бесплатная демо-версия с ограниченным количеством запросов. В настоящее время есть три платных тарифа.

Базовый — 200 GPU-минут;
Стандартный — 15 GPU-часов и возможность поставить релакс режим;
Продвинутый —30 GPU-часов/месяц и приватный режим генерации.

Midjourney использует графические процессоры (GPU) для обработки каждого запроса. Когда вы покупаете подписку, вы покупаете время использования этих процессоров.

Время ожидания ответа нейросети: генерация четырёх вариантов изображения длится от 40 до 60 секунд.

Возможность улучшать фото: можно увеличить разрешение и генерировать аналоги по готовой иллюстрации.

Вариации стилей/разрешений: нет стилевых ограничений, хорошо распознаёт текстовые запросы при вводе в строку поиска.

Наличие библиотеки изображений: большая библиотека с собственными изображениями и работами других пользователей. В библиотеке есть возможность поиска и просмотра запросов других пользователей к изображениям.

Общее впечатление: с выходом пятого обновления качество изображения людей значительно возросло: черты лица хорошо прорисованы, образы реалистичны. Фотоиллюстрации стали более проработанными, выглядят отлично, при повторении запроса меняется идея фотографии и ракурсы.

Это программное обеспечение с открытым кодом от компании CompVis, создающее изображения по текстовым описаниям. В публичный доступ программы была выпущена в августе 2022 году, но сразу стала набирать популярность.

Для создания картинок Stable Diffusion использует набор данных LAION-5B, который содержит 5 миллиардов изображений из интернета, включая популярные сайты, такие как Pinterest, DeviantArt и Getty Images.

Нейросеть может генерировать изображения на основе текстового запроса, дорисовывать наброски и переделывать картинки-референсы на свой лад.

Всё это бесплатно, а открытый исходный код позволяет установить Stable Diffusion на свой компьютер и использовать собственные вычислительные мощности.

Однако, сервис не учитывает физические особенности людей на изображениях, поэтому при создании текстовых подсказок необходимо учитывать это самостоятельно. В будущем, модели, вероятно, будут улучшаться, чтобы фильтровать и корректировать изображения более эффективно.

Стоимость: бесплатно.

Как начать работу: на официальном сайте, обязательная регистрация не требуется. Также есть приложения на основе Stable Diffusion.

Время ожидания ответа нейросети: генерация четырёх вариантов изображения длится более 60 секунд.

Возможность улучшать фото: нет дополнительных инструментов улучшения и обработки.

Вариации стилей/разрешений: нет стилевых ограничений, но сервис плохо разбирает текстовые запросы, а варианты разрешений ограничены (в веб-версии только 1:1).

Наличие библиотеки изображений: отсутствует.

Общее впечатление: откровенно плохо изображает людей и лица, а качество самих фотографий нельзя предугадать. Продукт ещё «сырой» и требует значительных доработок.

Пользовательский сервис и облегчённая версия Stable Diffusion. Создан для генерации изображения по текстовому запросу или на основе референсной картинки.

После регистрации появляется окно, в котором генерируется изображение. Внизу нужно ввести текстовый запрос. Слева можно выбрать размер картинки и насколько сильно она должна соответствовать запросу.

За один раз можно сгенерировать до девяти изображений. Доступна генерация не только по текстовому запросу, но и по изображению.

Стоимость: дается 25 пробных кредитов (кредит примерно равен 125 изображениям). Одна генерация дает от 1 до 10 вариантов изображений. Далее оплата идет за каждые 1000 кредитов.

Как начать работу: можно работать на сайте, а также через Discord или в Google. Для любого варианта необходима регистрация, которая сопровождается долгой верификацией с подтверждением почты.

Время ожидания ответа нейросети: максимальное количество шагов генерации изображения — 150.

Возможность улучшать фото: нет дополнительных инструментов улучшения и обработки, но можно генерировать аналоги по фотографиям.

Вариации стилей/разрешений: нет стилевых ограничений, но сервис плохо разбирает запросы, варианты разрешений ограничены (только версия 1:1).

Наличие библиотеки изображений: только библиотека своих изображений.

Общее впечатление: нейросеть выдаёт неплохие результаты генерации, однако варианты изображений по одному и тому же запросу почти идентичны: они ни отличаются позой, мимикой, идеей изображения. Чтобы получить достойный результат, необходимо тщательно прорабатывать запрос.

Это обновлённое поколение нейросети Kandinsky 2.0 для генерации картинок, которую Сбер запустил летом 2022 года.

Новая модель сильно улучшена, она была обучена на 170 миллионах связок «текст-изображение», содержит 3,3 миллиарда параметров.

Основное отличие Kandinsky 2.1 от её основных конкурентов Midjourney, Stable Diffusion и DALL-E, в том, что она способна понимать более 100 языков, включая русский.

Стоимость: бесплатно.

Как начать работу: опробовать нейросеть можно на сайте, при помощи команды «Запусти художника» на «умных» устройствах Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте.

Время ожидания ответа нейросети: генерация изображения занимают до 60 секунд.

Возможность улучшать фото: можно корректировать детали на изображении во встроенном редакторе, задавать цветовые фильтры и стиль изображения, дорисовывать загруженное изображение.

Вариации стилей/разрешений: нет стилевых ограничений, картинки генерируются в разрешении 768 × 768 пикселей, но в формате 1:1.

Наличие библиотеки изображений: отсутствует.

Общее впечатление: качество изображений среднее, хотя встречаются интересные фотографии. Прорисовка людей в определенных стилях оставляет желать лучшего. «Кандинский» плохо прорисовывает пальцы, лица и профиль человека. Кроме того, в фотографиях по одному и тому же запросу меняется только ракурс, а идея остается исходной.

Это бета-версия нейрогенератора изображений от Яндекс, которая планирует стать русским Midjourney.

Прототип нейросети создаёт изображения в приложении, а не онлайн, как большинство западных аналогов. Описания нейросеть принимает как на русском, так и на английском языках.

Приложение доступно в Appstore и Playmarket, поэтому работать в нем можно на мобильных устройствах.

Стоимость: бесплатно, но из-за большого количества желающих, новый пользователь попадает в лист ожидания, где может провести от пары минут до нескольких часов. О доступе к сервису сообщают с помощью уведомления (не забудьте активировать эту опцию, чтобы его не пропустить).

Как начать работу: работает в приложении на любом смартфоне.

Время ожидания ответа нейросети: генерация изображения занимает от 60 до 120 секунд.

Возможность улучшать фото: можно задавать цветовые фильтры и стиль изображения, есть возможность дорисовывать загруженное изображение.

Вариации стилей/разрешений: нет стилевых ограничений, генерирует изображения в разрешении 256 на 256 точек, хотя современные нейросети рисуют гораздо качественнее.

Наличие библиотеки изображений: есть возможность просматривать свои опубликованные изображения и изображения других пользователей в ленте, но в случайном порядке.

Общее впечатление: качество изображений среднее, хотя встречаются интересные и красивые фотографии. Работать только через приложение не очень удобно, ждём веб-версию. Сейчас программа в режиме бета-теста, поэтому использовать его для профессиональных задач ещё рано.

WOMBO Dream — это сервис два в одном. Во-первых, программа умеет преобразовывать текст в уникальные произведения искусства. Во-вторых, вы можете загрузить готовую фотографию и сделать из неё сюрреалистичный арт, либо использовать её как референс для генеративной картинки.

Работает на английском языке. Для использования сервиса не нужно регистрироваться или авторизоваться, а пробная веб-версия доступна бесплатно.

С помощью этого сервиса можно легко создавать вертикальные изображения, причём его главное преимущество заключается в том, что пользователь может самостоятельно выбирать стиль изображения из более 30 вариантов и прикреплять референсы к запросу.

Стоимость: бесплатная версия позволяет генерировать одно изображение в выдаче, запрос не более 200 символов.

Как начать работу: работает на сайте, регистрация не требуется.

Время ожидания ответа нейросети: генерация изображения занимает от 20 до 40 секунд.

Возможность улучшать фото: генерация аналогов по фотографии доступна только в платной версии, а коррекция деталей на изображении находится на этапе тестирования.

Вариации стилей/разрешений: включает в себя 22 разных стиля: синтвейв, фэнтэзи, стимпанк, психоделика, японские гравюры укиё-э, студия «Гибли» Хаяо Миядзаки, Сальвадор Дали и так далее. Для более точной генерации изображения можно загрузить «исходную базу» для текста (любая картинка). Доступно одно разрешение 3:2.

Наличие библиотеки изображений: отсутствует, просмотр сгенерированной фотографии доступен только в очень неудобном маленьком варианте, но есть возможность увеличения в платной версии (не тестировалась).

Общее впечатление: неплохое качество фотографий, но есть сложность с реализмом. Интерфейс продукта очень неудобный, особенно в бесплатной версии. При просьбе сгенерировать красивого кота постоянно удваивал этого кота.

StarryAI позиционируют себя как нейросеть для генерации NFT. Приложение работает на основе трёх алгоритмов:

первый создаёт более фантазийные и абстрактные изображения (он называется Altair);
второй — более реалистичные (Orion);
третий — специализируется на рендеринге (Argo).

Дополнительно к тексту запроса можно добавить желаемый стиль изображения, либо загрузить готовую картинку, которую ИИ использует в качестве отправной точки, а также указать количество вариаций и уровень проработки.

Стоимость: в день можно создавать до пяти изображений бесплатно (как в мобильном приложении, так и на официальном сайте).

Платная подписка разбита на 3 тарифа с помесячной оплатой: Starter,Unlimited Pro, Unlimited Pro Max.

Как начать работу: нужно авторизоваться на сайте. Существует и мобильное приложение StarryAI для iOS и Android. Регистрация в приложении не требуется. В приложении тот же функционал и название кнопок, что и в веб-версии.

Время ожидания ответа нейросети: генерация изображения занимает от 60 до 120 секунд.

Возможность улучшать фото: можно улучшать фотографии и генерировать аналоги по изображениям.

Вариации стилей/разрешений: нет ограничений по стилям, можно увеличить разрешение за дополнительные кредиты. Бесплатно доступны пять вариантов разрешений, четырех из которых вертикальные.

Наличие библиотеки изображений: есть библиотека своих изображений и возможность просматривать изображения других пользователей, но нет сквозного поиска.

Общее впечатление: хорошее качество изображений, можно получить стоящие результаты, если подобрать удачные указания в запросе. Система может выдать как странную абстракцию, так и работу с объёмными детализированными объектами. Интерфейс сайта и галерея фотографий требуют доработки, так как сейчас они неудобные.

Сервис Crayon — это бывшая нейросеть Dall-E mini по генерации изображений на основе текста на английском языке. Интерфейс удобный и прост в использовании: вставили нужные слова и просто ждете, пока программа генерирует сразу 9 иллюстраций.

Стоимость: открытый и бесплатный сервис. Есть платные тарифы, которые дают возможность коммерческого использования фотографий и расширений инструментарий для создания изображений.

Как начать работу: сервис работает на сайте и через телеграм-бот. Регистрация не требуется.

Время ожидания ответа нейросети: генерация изображения занимает от 20 до 40 секунд.

Возможность улучшать фото: готовые фото не поддаются редактированию.

Вариации стилей/разрешений: нет ограничений по стилям, варианты разрешений ограничены (только версия 1:1).

Наличие библиотеки изображений: есть общая библиотека с изображениями со сквозным поиском и возможность просмотра запросов других пользователей.

Общее впечатление: нейросеть требует существенных доработок, потому что сейчас даже качество изображений низкое, не говоря уже о стилях и прорисовках.

Проект от разработчика Александра Мордвинцева появился ещё в 2015 году.

Deep Dream содержит в себе три инструмента:

создание картинки с нуля по описанию;
стилизация загруженного изображения под референс из каталога;
обработка загруженной картинки.

Стоимость: бесплатно доступно 100 единиц энергии. Есть три платных тарифа. Чем выше тариф, тем больше выдаётся энергии и скорости её восстановления.

Как начать работу: попробовать можно на официальном сайте, необходима регистрация.

Время ожидания ответа нейросети: генерация четырёх вариантов изображения длится от 40 до 60 секунд

Возможность улучшать фото: можно увеличить разрешение и генерировать аналоги по готовой иллюстрации.

Вариации стилей/разрешений: понимает стили при запросе, а варианты разрешений ограничены (доступно 3 варианта).

Наличие библиотеки изображений: есть библиотека с собственными изображениями и работами других пользователей, но без поиска по запросу.

Общее впечатление: достойный конкурент Midjourney по качеству изображений, но уступает по функциональности и стоимости тарифов.

Нейросети — ещё один полезный инструмент для оптимизации рабочих процессов человека. Это помощник в создании креативных иллюстраций, который решает проблему с недостатком качественных изображений для статей и творческих проектов, но не заменит работу медийщиков, дизайнеров и иллюстраторов.

А как считаете вы?

Нейросети заменят творческие профессии?

копирайтеров и SMM-щиков точно заменят

нет, талант художника — это дар свыше

возможно, но не в ближайшем будущем

дизайнерам и иллюстраторам будет непросто

не хотелось бы остаться без работы

напишу свой вариант в комментариях

Еще больше свежих новостей и подробной аналитики об агротехе, IT и бизнесе, а также актуальные вакансии и стажировки вы можете найти на платформе «РСХБ в цифре» и в нашем Телеграм-канале.

Тестируем нейросети для генерации изображений

Midjourney

Stable Diffusion

Dream Studio

Kandinsky 2.1

Шедеврум

Dream by WOMBO

StarryAI

Crayon

Deep Dream

Напоследок