Stable Diffusion. Самая впечатляющая нейросеть. Как пользоваться новым инструментом ИИ?

Наверняка, вы уже слышали о Stable Diffusion. Новая нейросеть наделала много шума. Stable Diffusion позволяет создавать визуальную реальность, которую только можно представить, любому пользователю бесплатно. Модель искусственного интеллекта генерирует изображения на основе текста или входного изображения.

Почему это так популярно, как ею пользоваться и почему вас это должно волновать?

Stable Diffusion - это модель преобразования текста в изображение, которая позволит миллионам людей создавать потрясающие произведения искусства за считанные секунды. Это прорыв в скорости и качестве. Совсем скоро она сможет работать на любых графических процессорах.

Расцвет в генерации изображений

В этом году мы увидели несколько ИИ для создания изображений, таких как Dall-e 2, Imagen и Craiyon. 22 августа Stability AI выпустила свою модель генерации изображений с открытым исходным кодом, которая сможет составить конкуренцию DALL-E 2 по качеству. Stable Diffusion - это детище Эмада Мостака, бывшего менеджера лондонского хедж-фонда. Его цель - донести новые приложения ИИ до широких масс.

Интервью с создателем Эмадом Мостаком

Что выделяет Stable Diffusion на фоне аналогичных нейросетей?

Для начала, это открытый исходный код под лицензией Creative ML OpenRail-M. Вы можете запускать SD на своем компьютере, а не через облако, доступ к которому осуществляется через веб-сайт или API.

Для получения достойных результатов разработчики рекомендуют графический процессор NVIDIA серии 3xxx с объемом оперативной памяти не менее 6 ГБ.

Только за последние 2 недели появились десятки проектов, созданных в Stable Diffusion. И люди добились крутых результатов, используя технику под названием "img2img", которая "модернизировала" игровое искусство, превратила сцену из "Аладдина" в 3D, перевела детские каракули в богатые иллюстрации и многое другое.

Stable Diffusion. Самая впечатляющая нейросеть. Как пользоваться новым инструментом ИИ?

Enlarge / Duke Nukem

Синтез изображений может дать возможность широкой аудитории наглядно визуализировать идеи, снижая барьеры для входа и расширяя возможности художников.

Возможности Stable Diffusion

Как пользоваться?

Если вам интересно попробовать, перейдите на страницу huggingface, dreamstudio.ai , или Google collab и используйте их веб-интерфейс (все в настоящее время бесплатно). Или следуйте руководству внутри платформы (любое руководство, которое мы напишем здесь, устареет в течение нескольких недель). Поиграли с запросами сами, вот что вышло.

На ПК с Windows с графическим процессором Nvidia RTX 3060 12GB генерация изображения размером 512 × 512 занимает 10 секунд. На 3090 Ti это время сокращается до 4 секунд. Интерфейсы также продолжают быстро развиваться. Так что, если вы не разбираетесь в технике, держитесь крепче: на подходе более простые решения.

Как работает Stable Diffusion?

Большая часть недавней волны ИИ использует технику, называемую скрытой диффузией. По сути, модель учится распознавать знакомые формы в поле чистого шума, а затем постепенно фокусирует эти элементы, если они соответствуют словам в подсказке.

Для начала человек или группа, обучающие модель, собирают изображения с метаданными и формируют большой набор данных. В случае со Stable Diffusion Stability AI использует подмножество набора изображений LAION-5B, который, по сути, представляет собой огромную подборку из 5 миллиардов общедоступных изображений в Интернете.

Недавний анализ набора данных показывает, что многие изображения взяты с таких сайтов, как Pinterest, DeviantArt и Getty Images. В результате Stable Diffusion впитал в себя стили многих ныне живущих художников.

Затем модель обучается на основе набора данных изображения, используя банк из сотен высокопроизводительных графических процессоров, таких как Nvidia A100. По словам Мостака, на сегодняшний день обучение Stable Diffusion обошлось в 600 000 долларов (оценки затрат на обучение для других ISM обычно исчисляются миллионами долларов).

We actually used 256 A100s for this per the model card, 150k hours in total so at market price $600k

Эмад Мостак

В процессе обучения модель связывает слова с изображениями благодаря методике под названием CLIP, которая была изобретена OpenAI и анонсирована только в прошлом году.

С помощью скрытой диффузии изучаются статистические ассоциации о том, где определенные цветные пиксели обычно находятся по отношению друг к другу для каждого субъекта. Таким образом, не обязательно "понимать" их отношения на высоком уровне, но результаты все равно могут быть удивительными.

После завершения процесса обучения модель никогда не дублирует какие-либо изображения в исходном наборе, а вместо этого может создавать новые комбинации стилей на основе того, что она изучила.

На данный момент Stable Diffusion не заботится о том, есть ли у человека три руки, две головы или по шесть пальцев на каждой руке, поэтому, если вы не мастер создавать текстовые подсказки, вам, вероятно, потребуется создать много изображений и выбрать самые лучшие из них. В будущем, вероятно, модели будут улучшены настолько, что внутренний фильтр будет делать всю работу за вас.

У SD множество этических и юридических проблем

Релиз Stable Diffusion вызвал тревогу среди людей, которые опасаются его влияния на культуру и экономику. В отличие от DALL-E 2, обучающие данные Stable Diffusion доступны для любого пользователя без каких-либо жестких ограничений.

Stable Diffusion включает автоматические фильтры "NSFW" и невидимый отслеживающий водяной знак, встроенный в изображения, но эти ограничения можно легко обойти в открытом исходном коде. Это означает, что программу можно использовать для создания изображений, которые OpenAI в настоящее время блокирует: пропаганда, изображения насилия, порнография, изображения, которые нарушают авторские права, подделки и многое другое.

Лицензия Stable Diffusion официально запрещает многие из этих видов использования, что реализовать на практике практически невозможно. Когда Мостаку сообщили об этих опасениях, он сказал, что преимущества перевешивают потенциальные недостатки.

Мы верим в индивидуальную ответственность и свободу действий. Мы включили политику этичного использования и инструменты для уменьшения вреда

Эмад Мостак

Кроме того, Stable Diffusion при своем обучении включает миллионы произведений искусства, собранных живыми художниками без их спроса, а потом генерирует удивительно похожие изображения. Это поднимает важные вопросы об авторстве и авторском праве.

Новый генератор изображений с искусственным интеллектом, похоже, способен создавать произведения искусства, которые выглядят на 100% сделанными человеком. Как художник, я очень обеспокоен

Р. Дж. Палмер (@arvalis)

Еще одна проблема - культурные предубеждения. Поскольку нейросети в настоящее время работают, просматривая Интернет в поисках изображений и связанных с ними метаданных, они изучают социальные и культурные стереотипы, присутствующие в наборе данных. Например, на ранней стадии бета-тестирования Stable Diffusion на сервере Discord тестировщики обнаружили, что почти каждый запрос на "красивую женщину" включал в себя обнаженных женщин, что отражает то, как западное общество часто изображает их в Интернете. Об этой проблеме мы писали в статье про DALL-E 2.

Stable Diffusion <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fdreamingcomputers.com%2Fai-images%2Fstable-diffusion-ai-art%2F&postId=506283" rel="nofollow noreferrer noopener" target="_blank">SteamPunk Female</a>
Stable Diffusion SteamPunk Female

Несмотря на обеспокоенность, интернет остается крупнейшим бесплатным источником изображений с прикрепленными метаданными. Попытка вручную написать описательные подписи к миллиардам изображений для совершенно нового набора этических данных экономически нецелесообразна.

Что будет дальше?

Судя по развитию вычислительных мощностей, высока вероятность, что в конечном итоге доступ в нейросеть будет из смартфона. Кроме того, новые методы позволят со временем обучать эти модели на менее дорогом оборудовании. Вскоре мы увидим взрыв творческих результатов, подпитываемых ИИ.

Stable Diffusion уже начинает использовать динамическую генерацию и обработку видео, поэтому ожидайте создания фотореалистичного видео с помощью текстовых подсказок в ближайшее время. Отсюда логично расширить эти возможности на аудио и музыку, видеоигры в реальном времени и 3D VR.

Продвинутый ИИ сможет выполнять большую часть творческой тяжелой работы с помощью всего лишь нескольких предложений. Представьте себе неограниченное количество развлечений, создаваемых в режиме реального времени по запросу.

Stable Diffusion. Самая впечатляющая нейросеть. Как пользоваться новым инструментом ИИ?

Stable Diffusion берет сотни миллионов изображений и сжимает информацию о них в файл весом 4,2 ГБ. Можно было бы представить себе использование вариации этой технологии в будущем для сжатия, скажем, художественного фильма размером 8 КБ в несколько мегабайт текста. Как только это произойдет, любой желающий сможет таким же образом создавать свои собственные художественные фильмы. Последствия этой технологии только начинают изучаться, поэтому она может привести нас в совершенно новых направлениях, которые мы не можем предвидеть в данный момент.

Реалистичные модели синтеза изображений потенциально опасны в сфере пропаганды и дезинформации, искажении истории, а также уничтожении юридической ценности фото- или видеодоказательств. Сможем ли мы различать реальное фото от генерации ИИ?

В конечном счете, человечество адаптируется, даже если наши культурные рамки радикально изменятся в процессе. Такое случалось и раньше, вот почему древнегреческий философ Гераклит, как сообщается, сказал: "Единственная константа - это перемены".

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fandys.page%2Fposts%2Fhow-to-draw%2F&postId=506283" rel="nofollow noreferrer noopener" target="_blank">Тут</a> подробно описан процесс создания этого изображения с помощью SD
Тут подробно описан процесс создания этого изображения с помощью SD

В конечном счете, это станет еще одним инструментом для более быстрого и доступного выражения идей. Хотя то, что генерирует SD, может не использоваться в качестве конечных ресурсов, оно может быть использовано для создания текстур в прототипе игры. Или создайте логотип для проекта с открытым исходным кодом.

Открытый исходный код также является чем-то вроде палки о двух концах, поскольку любой может взять его и делать все, что захочет. Лицензия на модель запрещает ее использование во многих неблаговидных целях, но на данный момент мы не знаем, какие последствия это будет иметь в долгосрочной перспективе. Перспектива на десять или пятнадцать лет становится очень туманной, поскольку трудно представить, что можно было бы сделать с версией, которая будет в 10 раз лучше и работала в режиме реального времени.

8181
21 комментарий

"Владимир Путин вяжет носочки Сергею Шойгу"

22
Ответить

можете удалять эту нейросеть, ничего лучше она уже не сделает

6
Ответить

Кстати, для видеокарт с маленьким объемом памяти (~4-6GB) есть оптимизированная версия, разбитая на несколько частей, отправляемых на GPU только при вычислениях:

2
Ответить

https://github.com/AUTOMATIC1111/stable-diffusion-webui

Лучшее, что смог найти для запуска на локалке.

2
Ответить

Подскажите, а как им пользоваться? Зарегистрировалась, но не пойму, где там загружать тексты и картинки. Я не в игры хотела играть, а видео или картинки делать.

2
Ответить

Ну там графический интерфейс в комплекте не идет.
Попробовать можно здесь, какой-то приделали: https://huggingface.co/spaces/stabilityai/stable-diffusion
Можно в Гугл-коллабе запустить, можно и на ПК. Но видеокарта должна быть хорошей, чтобы не мучиться. И лучше Nvidia.

1
Ответить

А ДримСтудио почему не можете воспользоваться? На оф сайте стабилити аи посмотрите

1
Ответить