Как пользоваться нейросетью Stable Diffusion и как бесплатно генерировать изображения без установки на компьютер и навыков программирования

Хотите создавать удивительные изображения с помощью искусственного интеллекта? Познакомьтесь со Stable Diffusion - одной из самых впечатляющих нейросетей для генерации изображений, которая появилась в свободном доступе в августе 2022 года. Эта статья - для новичков, поэтому я постарался простым языком максимально рассказать про нейросеть Stable Diffusion.

Представьте себе помощника, который может нарисовать практически всё, что вы опишете словами. Именно так работает Stable Diffusion: вы вводите текстовое описание (промпт) желаемой картинки, и нейросеть генерирует изображение по вашему промпту. Более того, она может помочь завершить ваши наброски или взять существующее изображение и творчески его переосмыслить.

Особенно привлекательно то, что разработчики из Stability AI предоставили возможность пользоваться этой технологией бесплатно, при этом нейросеть - с открытым исходным кодом. Любой желающий может установить Stable Diffusion на свой компьютер и использовать его возможности, не завися от облачных сервисов.

Правда, есть некоторые нюансы: программа требовательна к техническим характеристикам компьютера, а её установка может показаться сложной для начинающих пользователей. Однако сообщество энтузиастов уже создало множество удобных способов работы с Stable Diffusion - от веб-сайтов до мобильных приложений и телеграм-ботов, делая эту технологию доступнее для каждого.

Например, разработчики телеграм-бота SYNTX пошли еще дальше, и в боте можно бесплатно генерировать изображения с помощью Stable Diffusion (если у вас оформлена подписка, то безлимит на генерацию, либо если вы подписаны на паблик бота, то сможете ежедневно генерировать в SD 3 изображения).

В этой статье я расскажу о Stable Diffusion - это нейросеть, которая умеет создавать изображения по описанию. Не волнуйтесь, если вы не разбираетесь в программировании - вы узнаете, как пользоваться этой технологией без специальных знаний.

Чтобы лучше понять, почему Stable Diffusion так интересна, мы совершим небольшое путешествие во времени и посмотрим, какие похожие программы появились в 2022 году, и как Stable Diffusion вписывается в эту историю. Это поможет вам увидеть, насколько быстро развиваются технологии создания изображений с помощью искусственного интеллекта, и почему Stable Diffusion заслуживает особого внимания.

2022 год стал настоящим прорывом в мире искусственного интеллекта, особенно в области создания изображений. Появилось несколько новых нейросетей, которые могут создавать новые картинки и изменять уже существующие. Давайте посмотрим, как развивались эти технологии.

Весной 2022 года компания OpenAI представила DALL-E 2. Эта нейросеть умеет генерировать изображения в различных стилях. В ней можно сгенерировать что-то реалистичное или фантастическое, а также в стиле известных художников, например, Ван Гога или Кандинского.

Вскоре после этого в России появилась похожая система - ruDALL-E от Сбера. Она тоже умеет создавать разные изображения, но особенно хорошо работает со стилями российских и советских художников. Например, вы можете получить картинку в стиле Малевича или Сурикова.

Летом 2022 года появилась MidJourney. Эта нейросеть особенно полюбилась дизайнерам. Сначала ею могли пользоваться только избранные, но потом она стала доступна всем желающим.

И наконец, появилась Stable Diffusion, о которой мы сегодня говорим. Она стала следующим шагом в развитии этих удивительных технологий.

Stable Diffusion - это нейросеть для генерации изображений на основе текстовых описаний (промптов). Она разработана под руководством Эмада Мостака и выпущена компанией Stability AI в августе 2022 года.
Что делает эту нейросеть особенной? В первую очередь то, что её исходный код находится в свободном доступе. Это значит, что любой желающий может:

изменять нейросеть под свои нужды,
устанавливать её на свои серверы,
открывать доступ к своим версиям другим пользователям.

Stable Diffusion использует для генерации изображений интересный метод под названием "латентная диффузия". Представьте, что нейросеть ищет знакомые формы в огромном альбоме картинок, а затем выбирает именно те, которые лучше всего подходят к вашему описанию. Этому "умению" Stable Diffusion учится в процессе обучения и тренировки.

Для начала, команда Stability AI собрала огромную коллекцию изображений с подписями. Они использовали часть из базы LAION-5B, в которой хранится около 5 миллиардов изображений из интернета. Многие из них - с таких сайтов, как Getty Images, DeviantArt и Pinterest. Поэтому Stable Diffusion умеет создавать изображения в стилях современных художников.

Затем нейросеть начала обучать на мощных компьютерах с особыми графическими картами, используя технологию под названием CLIP, которая помогает связывать слова и изображения. В отличие от обычного метода, когда картинка создается слой за слоем, технология CLIP позволяет сразу создавать целое изображение.

После обучения нейросеть продолжает тренироваться. Она использует то, что уже знает, анализирует цвета и формы в знакомых картинках, а затем генерирует новое изображение, которое соответствует вашему запросу. И Stable Diffusion постоянно улучшается, продолжая учиться и тренироваться.

Генерировать изображения и картинки по описанию. Эта технология работает на основе особой системы, называемой "скрытой диффузией". Ее научили понимать связь между картинками и их описаниями, используя большую коллекцию примеров. В результате система узнала, как пиксели (маленькие точки, из которых состоит изображение) должны располагаться относительно друг друга. Начиная с беспорядочного набора пикселей, похожего на "шум", система постепенно создает четкую картинку.

Модели таких нейросетей, как Dall-e 3 и Midjourney, работают на серверах компаний, из-за чего пользователи ограничены в управлении. Некоторые промпты не проходят цензуру или правовые ограничения, а некоторые функции просто отсутствуют. Stable Diffusion отличается тем, что с помощью него можно генерировать изображения по контуру фото и обучать модель на своих данных.

Stable Diffusion может работать со стилями художников от эпохи Возрождения до современных создателей игровой графики. Нейросеть позволяет комбинировать стили, например, соединять стиль Ван Гога и современного NFT-художника Beeple.

Но это создает проблему: нейросеть обучалась на большом количестве работ без разрешения их авторов. Это относится как к известным художникам, так и к любительским работам с Pinterest и DeviantArt, обнаруженным в данных для обучения. Существует сайт Have I Been Trained, где можно проверить, использовались ли ваши работы для обучения Stable Diffusion или Midjourney.

Пользователи Stable Diffusion особенно часто используют стиль польского художника Грега Рутковски, который создает арты для игр. Его имя улучшает качество генерируемых изображений. В результате при поиске работ Рутковски чаще встречаются сгенерированные изображения, чем его настоящие работы.

Работа Грега Рутковски. Источник: technologyreview.com

Изображение, сгенерированное Stable Diffusion в стиле Грега Рутковски. Источник: technologyreview.com

Создавать ассеты (игровые предметы) для игр. У пользователей получилось встроить нейросеть в игровой движок Unreal Engine. Благодаря этому можно создавать игровые объекты, описывая их словами, и автоматически размещать в игре.

В будущем планируется более сложное применение - создание виртуальных пространств в реальном времени, используя одновременно Stable Diffusion и другие нейросети.

Создание визуальных образов. Теперь пользователи не ограничиваются отдельными изображениями, а могут генерировать последовательности кадров и объединять сгенерированные картинки в полноценные видеоролики.

Stable Diffusion нашла применение даже в рекламной индустрии. К примеру, в рекламном ролике Coca-Cola с помощью нейросети оживили работы известных художников.

Реклама Coca-Cola с использованием Stable Diffusion

Дорисовывать фон и заменять объекты. Stable Diffusion обладает уникальными возможностями Inpainting и Outpainting, отсутствующими у некоторых других нейросетей. Inpainting позволяет заменять определенные элементы изображения на сгенерированные нейросетью - например, можно заменить кошку на собаку.

С помощью функции Outpainting можно неограниченно расширять готовое изображение, создавая новый фон вокруг него. Примером такого применения поделился пользователь Reddit, который дополнил известную картину "Девушка с жемчужной сережкой", дорисовав платье.

Пример использования функции Outpainting Источник: reddit.com

Завершение эскизов и набросков. Stable Diffusion способна преобразить простой набросок, добавляя к нему детали и окружение. Это позволяет родителям трансформировать детские рисунки в реалистичные изображения, а профессиональным художникам - ускорить процесс создания иллюстраций.

Более продвинутый подход включает использование нейросети для генерации отдельных элементов изображения, которые затем объединяются с помощью инструментов редактирования в Photoshop. Для удобства пользователей Stable Diffusion уже встроили в программу.

Генерация изображения с помощью плагина Stable Diffusion в Photoshop. Источник: reddit.com

Чтобы сгенерировать нужное изображение, важно правильно сформулировать текстовое описание (промпт). Запрос должен быть структурирован определенным образом, с элементами, разделенными запятыми и расположенными в специфическом порядке. Рекомендуется придерживаться следующей схемы при составлении промпта для генерации изображения:

объект, фон, стиль, дополнительные описания качества картинки и деталей

Где:

Объект — предмет или персонаж, который составляет основу композиции;
Фон — описание и цветовая гамма заднего плана;
Стиль — общая эстетика изображения или манера конкретного автора. К примеру, "лаконичный дизайн" или "в стиле Малевича";
Характеристики изображения - уровень проработки и особенности визуального представления, такие как "детализированное изображение" или "зернистость".

Для примера мы используем нейросеть Stable Diffusion, чтобы сгенерировать изображение на основе следующего текстового промпта:

рыжий кот среди цветов, стиль кантри, пастельные тона, высокое качество, высокая детализация

Количество итераций (Steps) определяет, сколько этапов пройдет нейросеть при генерации изображения. Увеличение числа итераций повышает качество, но увеличивает время обработки. Стандартное значение - 50.

Параметр Classifier Free Guidance влияет на то, как интерпретируется запрос, а также на контрастность и детализацию. Оптимальное значение - 7. Снижение до 3 может повысить реалистичность, но снизить яркость и контраст.

Seed - это начальный шум, из которого формируется изображение. По умолчанию он случайный, что обеспечивает разнообразие результатов. Использование конкретного числового значения сохраняет общую композицию даже при изменении запроса. Всего доступно около 16 миллиардов вариантов сида.

Resolution задает размер изображения. Большее разрешение требует больше времени на обработку. Stable Diffusion 1.5 оптимизирован для формата 512 × 512 пикселей, а SDXL - для 1024 × 1024 пикселей.

Sampler - это методы обработки шума, влияющие на конечный результат. Разные сэмплеры требуют разного количества итераций - от 8 до 80.

Для начинающих в SDXL рекомендуем устанавливать следующие нстройки: CFG - 4, Steps - 30, Sampler - DPM++ 2M Karras.

Советы по формированию эффективного промпта:

Начните с концепции. Типичная структура промпта включает следующие элементы: главный объект, окружение, художественный стиль, а также дополнительные детали, касающиеся качества изображения, освещения и прочих особенностей. Пример такого промпта: 'уличный кот, ночной городской пейзаж, лиловое освещение, фотография на пленочный фотоаппарат'. Это описание на английском звучало бы как 'cat on the street, night city, purple lighting, film photo'.

Киберпанковый кот с разными словами: purple lightning, skyscraper..

Обратите внимание на последовательность слов в запросе. Это важно, так как Stable Diffusion придает большее значение словам в начале промпта, но может проигнорировать те, что стоят в конце. Изменение порядка слов может привести к существенно разным результатам. Например, если вам не понравилось изображение лица человека, попробуйте переместить его описание ближе к началу промпта.

Вы можете управлять значимостью каждого элемента в запросе, управляя «весом» каждого слова. В DreamStudio это делается путем добавления числового значения от 0 до 100 после двоеточия, например: red:50, green:50. В других веб-интерфейсах используется альтернативная запись: (red:1.5) и (green:0.1).

Если сгенерировать (red:1.5) and (green:0.1) wall, а затем (red:0.1) and (green:1.5) wall, получится два кадра с разными цветами. Источник: Google Collab / Fooocus

Не жалейте слов. Чем подробнее будет ваше описание, тем точнее получится результат. Изображения, сравнимые по качеству с работами профессиональных художников, часто создаются на основе промптов длиной в пять-семь строк. Для достижения высокой детализации включайте фразы вроде «highly intricate, ultra-detailed, 4k» и добавляйте имена художников с похожим стилем. Постарайтесь включать в промпт все необходимые элементы.

Применяйте разнообразные синонимы. Повторение схожих понятий в запросе помогает нейросети лучше уловить ваши намерения. Например, для создания мрачной атмосферы используйте комбинацию слов «темно», «мрачно», «плохо освещено», «страшно», «хоррор».

Мрачный пейзаж. Источник: Google Collab / Fooocus

Используйте идеи других. Создание эффективных запросов с первой попытки может быть сложным. Эффективный метод - изучать промпты других пользователей для поиска идей или нужных стилей. Для этого существуют специальные сайты-промптеры. Комбинируйте элементы из разных запросов, удаляйте лишнее и добавляйте свои идеи - это поможет вам получить более разнообразные результаты.

Используйте специальные инструменты. Существуют сервисы-промптеры, которые помогают составить оптимальный запрос, основываясь на выбранных параметрах. Вот некоторые полезные ресурсы:

Public Prompts — бесплатные промпты с разделением по тематикам;
Lexica Art — обширное хранилище бесплатных изображений с сопутствующими описаниями, позволяющее заимствовать фрагменты промптов. Оснащено функцией поиска: к примеру, при вводе термина 'cyberpunk' система предлагает свыше 1200 вариантов;
PromptoMania — самый подробный промптер с множеством настроек, каждая из них проиллюстрирована;
OpenArt — галерея, похожая на Lexica Art, изображения можно смешивать или добавлять в закладки.

Не стоит расстраиваться, если первые попытки не приводят к ожидаемому результату. Обычно для того, чтобы ИИ точно понял ваш замысел, требуется экспериментировать с различными вариациями одного и того же промпта, порой до десяти раз. Это нормальный процесс поиска оптимального запроса.

Бесплатная генерация изображений доступна онлайн на официальном сайте Stable Diffusion. Процесс занимает всего несколько минут.

Обратите внимание, что веб-интерфейс Stable Diffusion не поддерживает русский язык. Для предотвращения ошибок рекомендую заранее перевести ваш запрос на английский (можно воспользоваться, к примеру, переводчиком Deepl).

Для генерации изображения выполните следующие шаги:

Перейдите на сайт Stable Diffusion.
Кликните Get Started for Free:

3. Введите промпт и нажмите Generate:

4. Немного подождите окончания генерации.

Когда изображение сгенерируется, вы сможете скачать его.

Версия бота со Stable Diffusion в Telegram поддерживает русский язык. Это удобно, если вы хотите вводить промпты на русском и не тратить время на перевод.
Однако эта модификация нейросети не работает в онлайн-режиме без Телеграм. Чтобы ей воспользоваться, нужно установить мессенджер Telegram на ваш компьютер, ноутбук или смартфон. Скачать Telegram можно с его официального сайта.
После установки приложения вы можете использовать Telegram-бота из российского сегмента Stable Diffusion. Для этого следуйте инструкции:

Откройте генератор Stable Diffusion (бот SYNTX) в Telegram.
Нажмите Запустить.
Выберите нужный язык

4. Затем кликните на пункт меню Дизайн с ИИ

После этого кликните на Stable Diffusion

Далее вы можете настроить модель

или ввести промпт.

Отдельно отмечу, что при покупке любой подписки на бота, можно генерировать изображения в Stable Diffusion бесплатно и без ограничений, а при подписке на их паблик можно каждый день генерировать бесплатно по 3 изображения

Создатели Stable Diffusion следуют политике прозрачности, публикуя код модели нейросети на платформе GitHub. Для запуска нейросети не требуются навыки программирования, так как активное сообщество разработало удобные методы запуска.

Существуют два основных способа работы со Stable Diffusion:

1. Онлайн-сервисы, телеграм-боты и приложения. Преимущества: вам не нужны знания кода или мощное оборудование, так как обработка запросов происходит на удаленных серверах. Достаточно просто сформулировать запрос. Недостатки: часто есть ограничения по функционалу, разрешению изображений и качеству генерации. Некоторые функции могут быть платными.

2. Локальная программа с графическим интерфейсом. Предоставляет больше возможностей и лучшее качество сгенерированных изображений. Разные интерфейсы отличаются по удобству использования и установки. Недостаток: требуется компьютер, соответствующий системным требованиям.

При выборе версии Stable Diffusion нужно учитывать, что кроме официальных моделей от Stability AI существует множество пользовательских вариантов с дополнительными настройками и обучением. Основных официальных версий насчитывается пять.

Stable Diffusion 1.5 стала прорывом, обеспечив массовое использование благодаря гибкости и высокому качеству изображений. Она была обучена на обширном наборе данных, включая контент для взрослых, поэтому остается наиболее популярной версией из-за низких требований к оборудованию и часто используется как основа для обучения пользовательских моделей.
Версия 2.1, несмотря на улучшенное качество генерации и способность создавать текст, не стала популярной из-за отсутствия NSFW-контента в обучающих данных.
SDXL, которая выпущена в середине 2023 года, предлагает улучшенное разрешение и композицию, но уступает версии 1.5 в генерации NSFW-контента и требует более мощного оборудования для дообучения.
Stable Cascade, которую представили в начале 2024 года, отличается более высокой скоростью генерации и улучшенной работой с текстом, но доступна только по подписке, и с бесплатным доступом к коду для исследовательских целей.
Stable Diffusion 3 - последняя версия с существенно измененной архитектурой, обещает значительно улучшенное понимание промптов. Использует новый тип диффузионного трансформера, схожий с технологией Sora от OpenAI для генерации видео.

Stable Diffusion - это мощная нейросеть, не уступающая по своим возможностям таким известным аналогам, как Midjourney и Dall-E 3. Ее ключевое преимущество заключается в том, что это открытый и бесплатный проект, доступный каждому, включая возможность установки на персональный компьютер.

Хотя для установки оригинальной версии Stable Diffusion требуются определенные навыки программирования, существуют более удобные сервисы на основе этой нейросети, которые сохраняют весь функционал, но значительно упрощают использование.

Хотя генерация изображений возможна через различные веб-сайты и приложения, я рекомендую использовать телеграм-бот SYNTX. Кроме того, что вам для генерации изображений не понадобится мощный компьютер, а генерировать вы сможете даже на смартфоне, при покупке любой подписки в боте у вас будет анлим на генерацию изображений с помощью SD (при подписке на паблик бота, вам каждый день будет бесплатно предоставляться 3 генерации в Stable Diffusion). Причем в боте есть все современные и популярные нейросети - от Midjourney до Kling.

Процесс создания текстового запроса в Stable Diffusion аналогичен другим нейросетям: сначала описывается объект, затем указывается стиль и дополнительные характеристики. Если у вас возникают трудности с формулировкой запроса, существуют специальные сервисы, которые могут помочь в этом.

#stablediffusion #sd