Нейросеть Stable Diffusion - как пользоваться?

Нейросеть Stable Diffusion - как пользоваться?

В 2022 году было выпущено множество нейронных сетей, которые предназначены для работы с изображениями. Они обладают функционалом по созданию новых картинок и модификации готовых изображений.

В апреле 2022 года компания OpenAI представила DALL-E 2, нейросеть, которая обладает особенностью экспериментирования со стилями. С ее помощью можно создать изображение в реалистичном или футуристическом стиле, а также в стиле известных художников, таких как Винсент ван Гог или Василий Кандинский.

Вслед за DALL-E 2, компания Сбер разработала свою нейросеть под названием ruDALL-E, которая обладает схожим функционалом, но имеет отличительную особенность - возможность создания изображений в стиле российских и советских художников, например, Казимира Малевича или Василия Сурикова.

Другой выпущенной нейросетью является MidJourney, которая разработана для решения задач графического дизайна. Изначально эта нейросеть была доступна только на закрытом Discord-сервере, но спустя несколько месяцев она стала доступна всем желающим.

Завершающим выпуском является Stable Diffusion.

Что такое Stable Diffusion

Stable Diffusion - это нейросеть, которая разработана для создания изображений на основе текстовых запросов. Она была выпущена в августе 2022 года компанией Stability AI, а идею создания ее предложил Эмад Мостак.

Одной из главных особенностей Stable Diffusion, которая сделала ее популярной, является открытый исходный код. Свободное распространение программного обеспечения позволяет:

  • создавать свои собственные модификации ПО;
  • размещать и настраивать свои программы на удаленном сервере;
  • предоставлять доступ к программе для всех пользователей и многое другое.

Как работает нейросеть Stable Diffusion

Stable Diffusion - это нейросеть, которая использует технику латентной диффузии для генерации изображений по текстовому запросу. В процессе генерации система ищет знакомые формы из большого пула изображений и фокусируется на них при совпадении с запросом.

Как же нейросеть узнает формы? Это "навык" она получает в процессе обучения и тренировки.

На первом этапе обучения сети, сотрудники Stability AI отобрали изображения с метаданными, а также сформировали пул графических данных. Они использовали подмножество из крупного сета LAION-5B, в который входит около 5 000 000 000 изображений из интернета.

Большинство изображений взяты с Getty Images, DeviantArt и Pinterest, что позволяет Stable Diffusion использовать стили современных художников.

Далее, нейросеть обучалась на сервере GPU для сложных операций. Обучение проходило по принципу, включающему использование технологии CLIP (Contrastive Language-Image Pre-training) - генерации готовой композиции в один этап.

Это позволяет нейросети строить ассоциативные ряды между словами и изображениями. Обучение продолжается, что помогает усовершенствовать нейросеть.

После этапа обучения следует тренировка, где нейросеть использует знакомые ассоциации, полученные в результате обучения, и анализирует соотношения пикселей определенных цветов в пуле известных ей изображений.

После этого она формирует окончательный вариант изображения, соответствующий запросу. Как и обучение, тренировка Stable Diffusion происходит на постоянной основе, что помогает улучшить работу нейросети.

Важной особенностью Stable Diffusion является открытый исходный код, что позволяет создавать собственные модификации ПО, настраивать свои программы на удаленном сервере и открывать доступ к новой программе для всех пользователей.

Как составить запрос в Stable Diffusion

Для генерации подходящего изображения необходимо составить точный текстовый запрос, где детали должны быть расположены в строгом порядке и разделены запятыми.

Формат описания желаемой картинки должен соответствовать следующей структуре:

объект, фон, стиль, дополнительные характеристики качества и деталей

Объект - это основной предмет композиции. Фон - это цветовое оформление заднего плана.

Стиль - это дизайн картинки или стилистика художника, например, "минимализм" или "стиль Малевича".

Дополнительные характеристики качества и деталей - это качество и детализация изображения, такие как "высокое качество" или "шум".

Самая популярная нейросеть 2023 года. ChatGPT-бот в Telegram предоставляет простой и бесплатный способ взаимодействия с ИИ, без необходимости регистрации, использования VPN и дополнительных номеров - ССЫЛКА.

Этот бот отличается от других тем, что не требует оплаты за использование и может быть использован в любом количестве - пользуйтесь на здоровье.

Начать дискуссию