{"id":14285,"url":"\/distributions\/14285\/click?bit=1&hash=346f3dd5dee2d88930b559bfe049bf63f032c3f6597a81b363a99361cc92d37d","title":"\u0421\u0442\u0438\u043f\u0435\u043d\u0434\u0438\u044f, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0442\u044c \u043d\u0430 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0438\u043b\u0438 \u043f\u0443\u0442\u0435\u0448\u0435\u0441\u0442\u0432\u0438\u044f","buttonText":"","imageUuid":""}

Stable Diffusion. Самая впечатляющая нейросеть. Как пользоваться новым инструментом ИИ?

Наверняка, вы уже слышали о Stable Diffusion. Новая нейросеть наделала много шума. Stable Diffusion позволяет создавать визуальную реальность, которую только можно представить, любому пользователю бесплатно. Модель искусственного интеллекта генерирует изображения на основе текста или входного изображения.

Почему это так популярно, как ею пользоваться и почему вас это должно волновать?

Stable Diffusion - это модель преобразования текста в изображение, которая позволит миллионам людей создавать потрясающие произведения искусства за считанные секунды. Это прорыв в скорости и качестве. Совсем скоро она сможет работать на любых графических процессорах.

Расцвет в генерации изображений

В этом году мы увидели несколько ИИ для создания изображений, таких как Dall-e 2, Imagen и Craiyon. 22 августа Stability AI выпустила свою модель генерации изображений с открытым исходным кодом, которая сможет составить конкуренцию DALL-E 2 по качеству. Stable Diffusion - это детище Эмада Мостака, бывшего менеджера лондонского хедж-фонда. Его цель - донести новые приложения ИИ до широких масс.

Интервью с создателем Эмадом Мостаком

Что выделяет Stable Diffusion на фоне аналогичных нейросетей?

Для начала, это открытый исходный код под лицензией Creative ML OpenRail-M. Вы можете запускать SD на своем компьютере, а не через облако, доступ к которому осуществляется через веб-сайт или API.

Для получения достойных результатов разработчики рекомендуют графический процессор NVIDIA серии 3xxx с объемом оперативной памяти не менее 6 ГБ.

Только за последние 2 недели появились десятки проектов, созданных в Stable Diffusion. И люди добились крутых результатов, используя технику под названием "img2img", которая "модернизировала" игровое искусство, превратила сцену из "Аладдина" в 3D, перевела детские каракули в богатые иллюстрации и многое другое.

Enlarge / Duke Nukem

Синтез изображений может дать возможность широкой аудитории наглядно визуализировать идеи, снижая барьеры для входа и расширяя возможности художников.

Возможности Stable Diffusion

Как пользоваться?

Если вам интересно попробовать, перейдите на страницу huggingface, dreamstudio.ai , или Google collab и используйте их веб-интерфейс (все в настоящее время бесплатно). Или следуйте руководству внутри платформы (любое руководство, которое мы напишем здесь, устареет в течение нескольких недель). Поиграли с запросами сами, вот что вышло.

На ПК с Windows с графическим процессором Nvidia RTX 3060 12GB генерация изображения размером 512 × 512 занимает 10 секунд. На 3090 Ti это время сокращается до 4 секунд. Интерфейсы также продолжают быстро развиваться. Так что, если вы не разбираетесь в технике, держитесь крепче: на подходе более простые решения.

Как работает Stable Diffusion?

Большая часть недавней волны ИИ использует технику, называемую скрытой диффузией. По сути, модель учится распознавать знакомые формы в поле чистого шума, а затем постепенно фокусирует эти элементы, если они соответствуют словам в подсказке.

Для начала человек или группа, обучающие модель, собирают изображения с метаданными и формируют большой набор данных. В случае со Stable Diffusion Stability AI использует подмножество набора изображений LAION-5B, который, по сути, представляет собой огромную подборку из 5 миллиардов общедоступных изображений в Интернете.

Недавний анализ набора данных показывает, что многие изображения взяты с таких сайтов, как Pinterest, DeviantArt и Getty Images. В результате Stable Diffusion впитал в себя стили многих ныне живущих художников.

Затем модель обучается на основе набора данных изображения, используя банк из сотен высокопроизводительных графических процессоров, таких как Nvidia A100. По словам Мостака, на сегодняшний день обучение Stable Diffusion обошлось в 600 000 долларов (оценки затрат на обучение для других ISM обычно исчисляются миллионами долларов).

We actually used 256 A100s for this per the model card, 150k hours in total so at market price $600k

Эмад Мостак

В процессе обучения модель связывает слова с изображениями благодаря методике под названием CLIP, которая была изобретена OpenAI и анонсирована только в прошлом году.

С помощью скрытой диффузии изучаются статистические ассоциации о том, где определенные цветные пиксели обычно находятся по отношению друг к другу для каждого субъекта. Таким образом, не обязательно "понимать" их отношения на высоком уровне, но результаты все равно могут быть удивительными.

После завершения процесса обучения модель никогда не дублирует какие-либо изображения в исходном наборе, а вместо этого может создавать новые комбинации стилей на основе того, что она изучила.

На данный момент Stable Diffusion не заботится о том, есть ли у человека три руки, две головы или по шесть пальцев на каждой руке, поэтому, если вы не мастер создавать текстовые подсказки, вам, вероятно, потребуется создать много изображений и выбрать самые лучшие из них. В будущем, вероятно, модели будут улучшены настолько, что внутренний фильтр будет делать всю работу за вас.

У SD множество этических и юридических проблем

Релиз Stable Diffusion вызвал тревогу среди людей, которые опасаются его влияния на культуру и экономику. В отличие от DALL-E 2, обучающие данные Stable Diffusion доступны для любого пользователя без каких-либо жестких ограничений.

Stable Diffusion включает автоматические фильтры "NSFW" и невидимый отслеживающий водяной знак, встроенный в изображения, но эти ограничения можно легко обойти в открытом исходном коде. Это означает, что программу можно использовать для создания изображений, которые OpenAI в настоящее время блокирует: пропаганда, изображения насилия, порнография, изображения, которые нарушают авторские права, подделки и многое другое.

Лицензия Stable Diffusion официально запрещает многие из этих видов использования, что реализовать на практике практически невозможно. Когда Мостаку сообщили об этих опасениях, он сказал, что преимущества перевешивают потенциальные недостатки.

Мы верим в индивидуальную ответственность и свободу действий. Мы включили политику этичного использования и инструменты для уменьшения вреда

Эмад Мостак

Кроме того, Stable Diffusion при своем обучении включает миллионы произведений искусства, собранных живыми художниками без их спроса, а потом генерирует удивительно похожие изображения. Это поднимает важные вопросы об авторстве и авторском праве.

Новый генератор изображений с искусственным интеллектом, похоже, способен создавать произведения искусства, которые выглядят на 100% сделанными человеком. Как художник, я очень обеспокоен

Р. Дж. Палмер (@arvalis)

Еще одна проблема - культурные предубеждения. Поскольку нейросети в настоящее время работают, просматривая Интернет в поисках изображений и связанных с ними метаданных, они изучают социальные и культурные стереотипы, присутствующие в наборе данных. Например, на ранней стадии бета-тестирования Stable Diffusion на сервере Discord тестировщики обнаружили, что почти каждый запрос на "красивую женщину" включал в себя обнаженных женщин, что отражает то, как западное общество часто изображает их в Интернете. Об этой проблеме мы писали в статье про DALL-E 2.

Stable Diffusion SteamPunk Female

Несмотря на обеспокоенность, интернет остается крупнейшим бесплатным источником изображений с прикрепленными метаданными. Попытка вручную написать описательные подписи к миллиардам изображений для совершенно нового набора этических данных экономически нецелесообразна.

Что будет дальше?

Судя по развитию вычислительных мощностей, высока вероятность, что в конечном итоге доступ в нейросеть будет из смартфона. Кроме того, новые методы позволят со временем обучать эти модели на менее дорогом оборудовании. Вскоре мы увидим взрыв творческих результатов, подпитываемых ИИ.

Stable Diffusion уже начинает использовать динамическую генерацию и обработку видео, поэтому ожидайте создания фотореалистичного видео с помощью текстовых подсказок в ближайшее время. Отсюда логично расширить эти возможности на аудио и музыку, видеоигры в реальном времени и 3D VR.

Продвинутый ИИ сможет выполнять большую часть творческой тяжелой работы с помощью всего лишь нескольких предложений. Представьте себе неограниченное количество развлечений, создаваемых в режиме реального времени по запросу.

Stable Diffusion берет сотни миллионов изображений и сжимает информацию о них в файл весом 4,2 ГБ. Можно было бы представить себе использование вариации этой технологии в будущем для сжатия, скажем, художественного фильма размером 8 КБ в несколько мегабайт текста. Как только это произойдет, любой желающий сможет таким же образом создавать свои собственные художественные фильмы. Последствия этой технологии только начинают изучаться, поэтому она может привести нас в совершенно новых направлениях, которые мы не можем предвидеть в данный момент.

Реалистичные модели синтеза изображений потенциально опасны в сфере пропаганды и дезинформации, искажении истории, а также уничтожении юридической ценности фото- или видеодоказательств. Сможем ли мы различать реальное фото от генерации ИИ?

В конечном счете, человечество адаптируется, даже если наши культурные рамки радикально изменятся в процессе. Такое случалось и раньше, вот почему древнегреческий философ Гераклит, как сообщается, сказал: "Единственная константа - это перемены".

Тут подробно описан процесс создания этого изображения с помощью SD

В конечном счете, это станет еще одним инструментом для более быстрого и доступного выражения идей. Хотя то, что генерирует SD, может не использоваться в качестве конечных ресурсов, оно может быть использовано для создания текстур в прототипе игры. Или создайте логотип для проекта с открытым исходным кодом.

Открытый исходный код также является чем-то вроде палки о двух концах, поскольку любой может взять его и делать все, что захочет. Лицензия на модель запрещает ее использование во многих неблаговидных целях, но на данный момент мы не знаем, какие последствия это будет иметь в долгосрочной перспективе. Перспектива на десять или пятнадцать лет становится очень туманной, поскольку трудно представить, что можно было бы сделать с версией, которая будет в 10 раз лучше и работала в режиме реального времени.

0
21 комментарий
Написать комментарий...
Слегка Придурковатый

"Владимир Путин вяжет носочки Сергею Шойгу"

Ответить
Развернуть ветку
Игорь Раду

можете удалять эту нейросеть, ничего лучше она уже не сделает

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Никита Шорохов

Кстати, для видеокарт с маленьким объемом памяти (~4-6GB) есть оптимизированная версия, разбитая на несколько частей, отправляемых на GPU только при вычислениях:

Ответить
Развернуть ветку
Kirill Stepanov

https://github.com/AUTOMATIC1111/stable-diffusion-webui

Лучшее, что смог найти для запуска на локалке.

Ответить
Развернуть ветку
allgaritm

Подскажите, а как им пользоваться? Зарегистрировалась, но не пойму, где там загружать тексты и картинки. Я не в игры хотела играть, а видео или картинки делать.

Ответить
Развернуть ветку
Руслан

Ну там графический интерфейс в комплекте не идет.
Попробовать можно здесь, какой-то приделали: https://huggingface.co/spaces/stabilityai/stable-diffusion
Можно в Гугл-коллабе запустить, можно и на ПК. Но видеокарта должна быть хорошей, чтобы не мучиться. И лучше Nvidia.

Ответить
Развернуть ветку
allgaritm

Спасибо, Руслан! Поизучаю.

Ответить
Развернуть ветку
Karolina8001 Ivanova

Подскажите а как в stable diffusion генирить свои модели?

Ответить
Развернуть ветку
Роман Городничев

А ДримСтудио почему не можете воспользоваться? На оф сайте стабилити аи посмотрите

Ответить
Развернуть ветку
Евгений Борисов

поищи в ютубе канал "XpucT" он щас сделал кучу годных уроков

Ответить
Развернуть ветку
loromeon

Веб-версия не впечатлила совсем. Возможно, если скурить мануалы и запускать на своем ПК, результат будет лучше.

Ответить
Развернуть ветку
Hrundel

там нужно очень много дополняющего текста дописывать и особенно того, что не нужно на картинке, тогда результат весьма впечатляет

Ответить
Развернуть ветку
Ashley Nightingale

Там на форчане уже скандал с этой нейронкой. Люди с помощью нее ЦП делают и продают.

Ответить
Развернуть ветку
Acerbys .

Что такое ЦП?

Ответить
Развернуть ветку
SexKamaz

Процессор. Рисуют процессоры и продают

Ответить
Развернуть ветку
Acerbys .

Просто у комментатора звучит что "люди с помощью неё (нейросети) ЦП делают" вот и не пойму тогда, как рисующая нейросеть центральный процессор делает😄

Ответить
Развернуть ветку
Alex Lowen

Возможно, все же Курцвеил был прав, и мы достигнем сингулярности в этом веке. Хотя это все и количественные улучшения технологии ИИ, но качественный скачек возможен в любой момент и мы, очевидно, узнаем об это слишком поздно.

Ответить
Развернуть ветку
Axel Denisenko

Интересно, надо будет попробовать.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Константин Вершинин

Коллеги, а кто-нибудь разобрался, как запустить генерацию одного рисунка поочередно по всем моделям с сохранением результатов?
Может скрип какой есть?
Каждый раз генерить выбирая новую модель и сравнивая с предыдущей - с ума сойдешь.

Ответить
Развернуть ветку
Дмитрий Чаплинский

А еще с помощью этой нейронки можно создать свою студию генеративной графики)

Кто-то кстати зарабатывает с помощью SD? Если будет интересно, то в профиле у себя рассказал, насколько она может быть полезна)

Ответить
Развернуть ветку
Sevenfire

Multi AI (MAI) интересный проект в крипте. Стягивает на свою платформу разные нейросети

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
18 комментариев
Раскрывать всегда