Что такое нейросеть Stable Diffusion

Stable Diffusion представляет собой новаторский ИИ-инструмент, способный создавать впечатляющие визуальные образы. Он основан на генерации изображений на основе входного текста или изображения с использованием искусственного интеллекта.

Почему этот инструмент вызывает такой большой интерес, как его можно применять и почему это может быть важным для вас? Вот вопросы, которые могут возникнуть, когда вы столкнетесь с этой технологией в первый раз.

В 2023 году было создано несколько новых инструментов искусственного интеллекта для генерации изображений, среди которых Dall-e 2, Imagen и Craiyon.

Но уже с 22 августа компания Stability AI представила свой собственный инструмент для генерации изображений с открытым исходным кодом, который, по качеству, может соперничать с Dall-e 2.

Инструмент называется Stable Diffusion и был разработан бывшим менеджером лондонского хедж-фонда Эмадом Мостаком. Он стремится сделать новые приложения искусственного интеллекта доступными для всех.

Стоит отметить, что Stable Diffusion является проектом с открытым исходным кодом и доступен по лицензии Creative ML OpenRail-M. Инструмент можно запустить на локальном компьютере, а не на облачной платформе через веб-сайт или API.

Чтобы получить высококачественные результаты, разработчики рекомендуют использовать графический процессор NVIDIA серии 3xxx с объемом оперативной памяти не менее 6 ГБ.

За последние две недели появилось множество проектов, созданных с помощью Stable Diffusion. Пользователи добились потрясающих результатов, используя технику "img2img", которая улучшает игровое искусство, превращает сцены из "Аладдина" в 3D, превращает детские рисунки в красочные иллюстрации и многое другое.

Генерация изображений может расширить круг пользователей и помочь визуализировать идеи, уменьшая препятствия для начинающих и расширяя возможности творческих людей.

Если вы хотите попробовать генерацию изображений, то есть несколько вариантов. Вы можете перейти на веб-страницы HuggingFace, DreamStudio.ai или Google Colab и воспользоваться их веб-интерфейсами (на данный момент это бесплатно).

Также вы можете следовать инструкциям на платформе, однако следует помнить, что любая инструкция, которую мы предоставим здесь, может устареть через несколько недель. Попробуйте самостоятельно изменять запросы и посмотрите, что получится.

Генерация изображений размером 512x512 занимает всего 10 секунд на ПК с ОС Windows и графическим процессором Nvidia RTX 3060 12GB. А если у вас есть графический процессор 3090 Ti, то это займет всего 4 секунды.

Кроме того, интерфейсы для работы с генерацией изображений продолжают быстро развиваться. Если вы не являетесь специалистом в этой области, не переживайте: скоро появятся более простые решения.

Многие новейшие модели искусственного интеллекта используют метод, известный как скрытая диффузия, для улучшения качества изображений. Суть метода заключается в том, что модель обучается распознавать знакомые формы на зашумленном изображении и постепенно улучшать его, чтобы оно соответствовало заданной задаче.

Для создания модели ИИ необходимо сначала собрать набор изображений с метаданными. В случае с моделью Stable Diffusion Stability AI используется набор данных LAION-5B, который содержит более 5 миллиардов изображений из интернета, взятых с различных сайтов, таких как Pinterest, DeviantArt и Getty Images. Это позволяет модели принять в себя стили многих художников.

Затем модель обучается на этом наборе данных изображений, используя сотни высокопроизводительных графических процессоров, таких как Nvidia A100. По словам Мостаку, обучение модели Stable Diffusion обошлось в 600 000 долларов.

Модель обучения, используемая для связывания слов с изображениями, называется CLIP и была разработана OpenAI в прошлом году. С помощью метода скрытой диффузии модель изучает статистические ассоциации между цветными пикселями в изображении для каждого объекта, что позволяет ей создавать удивительные результаты, даже если она не понимает отношения между пикселями на высоком уровне.

После завершения обучения модель способна создавать новые комбинации стилей, основанные на полученных знаниях, не повторяя никаких изображений из исходного набора.

Однако в настоящее время Stable Diffusion не учитывает физические особенности людей, такие как наличие дополнительных рук, голов или пальцев, поэтому создание множества изображений и выбор лучших из них может потребоваться, если у пользователя нет опыта в создании текстовых подсказок.

В будущем модели, скорее всего, будут настолько усовершенствованы, что внутренний фильтр будет выполнять всю работу за пользователя.

Запуск программы Stable Diffusion вызвал беспокойство в обществе из-за опасений ее возможного негативного влияния на культуру и экономику. В отличие от DALL-E 2, доступ к данным для обучения Stable Diffusion предоставляется всем пользователям без жестких ограничений.

Программа включает в себя автоматические фильтры "NSFW" и невидимый водяной знак для отслеживания изображений, но такие ограничения могут быть легко обойдены при использовании открытого исходного кода.

Это означает, что программа может использоваться для создания изображений, которые OpenAI в настоящее время блокирует, таких как пропаганда, насильственные изображения, порнография, нарушающие авторские права, поддельные и т.д.

Лицензия Stable Diffusion официально запрещает многие из этих видов использования, однако на практике контролировать это довольно сложно. Когда Мостаку был спрошен об этих опасениях, он заявил, что преимущества программы перевешивают потенциальные недостатки.

Кроме того, при обучении Stable Diffusion используются множество произведений искусства, собранных живыми художниками, но без их разрешения.

Затем модель генерирует изображения, которые в некоторых случаях похожи на эти произведения. Такое поведение вызывает серьезные вопросы о том, кто является автором и какие права он может претендовать на эти изображения.

Одна из проблем нейросетей заключается в культурных предрассудках, которые они приобретают в процессе обучения. Для обучения используется огромное количество изображений и связанных с ними метаданных, найденных в Интернете, что приводит к изучению социальных и культурных стереотипов, присутствующих в этих данных.

Например, при бета-тестировании программы Stable Diffusion на сервере Discord было обнаружено, что почти каждый запрос на "красивую женщину" включал обнаженные женские тела. Это отражает широкое распространение подобных изображений в западном обществе.

Хотя многие люди обеспокоены этим явлением, Интернет по-прежнему является самым большим бесплатным источником изображений с метаданными. Однако написание описательных подписей к миллиардам изображений вручную для создания нового набора этических данных является экономически невыгодным.

Я пользуюсь бесплатным ботом ChatGPT в Telegram, который вы можете использовать вместо регистрации на сайте — ССЫЛКА.
Так же скоро будет добавлена функция Stable Diffusion, где Вы сможете создавать свои картинки.

Расцвет в генерации изображений.

Что выделяет Stable Diffusion на фоне аналогичных нейросетей?

Как пользоваться?

Как работает Stable Diffusion?

У SD множество этических и юридических проблем.