{"id":13891,"url":"\/distributions\/13891\/click?bit=1&hash=4696f383c2c7a9ad3cf63ea80f95fbdb2c941c9d00a088af8319336cd52f7004","title":"Ozon \u043d\u0430\u043f\u0438\u0441\u0430\u043b \u0438\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u044e \u043e \u0442\u043e\u043c, \u043a\u0430\u043a \u043f\u0440\u043e\u0434\u0430\u0432\u0430\u0442\u044c \u043d\u0430 Ozon","buttonText":"\u0414\u0430 \u043d\u0443!","imageUuid":"f6c199c9-f72d-52bc-a539-75fc9e2f6f21","isPaidAndBannersEnabled":false}

Stable Diffusion - это впечатляющая нейросеть, которая привлекает внимание многих исследователей и инженеров

В конце статьи подарок.

Stable Diffusion — это инновационный инструмент искусственного интеллекта, который позволяет создавать потрясающую визуальную реальность. Это возможно благодаря генерации изображений на основе текста или входного изображения при помощи модели искусственного интеллекта.

Что вызывает такой большой интерес к этому инструменту, как его использовать и почему это может быть важно для вас? — Вот вопросы, которые могут возникнуть, когда вы впервые сталкиваетесь с данной технологией.

Расцвет в генерации изображений.

В текущем году появилось несколько новых инструментов искусственного интеллекта для генерации изображений, таких как Dall-e 2, Imagen и Craiyon. Но уже 22 августа компания Stability AI запустила свой собственный инструмент генерации изображений с открытым исходным кодом, который способен конкурировать с DALL-E 2 по качеству.

Этот инструмент, названный Stable Diffusion, разработан бывшим менеджером лондонского хедж-фонда Эмадом Мостаком, который стремится сделать новые приложения ИИ доступными для всех.

Что выделяет Stable Diffusion на фоне аналогичных нейросетей?

Сначала следует отметить, что Stable Diffusion является открытым исходным кодом и доступен под лицензией Creative ML OpenRail-M. Вы можете запустить этот инструмент на своем локальном компьютере, а не через облачную платформу, которая доступна через веб-сайт или API.

Для достижения высококачественных результатов, разработчики рекомендуют использовать графический процессор nvidia серии 3xxx с объемом оперативной памяти не менее 6 ГБ.

За последние две недели появилось множество проектов, созданных с помощью Stable Diffusion. И пользователи достигли потрясающих результатов, используя технику «img2img«, которая улучшает игровое искусство, превращает сцены из »Аладдина» в 3D, превращает детские рисунки в красочные иллюстрации и многое другое.

Генерация изображений позволяет расширить круг пользователей и помочь визуализировать идеи, уменьшая препятствия для начинающих и расширяя возможности творческих людей.

Как пользоваться?

Если вам хочется попробовать, то вы можете зайти на страницу HuggingFace, DreamStudio. ai или Google Colab и воспользоваться их веб-интерфейсом (сейчас это всё бесплатно).

Вы также можете следовать инструкциям на платформе (любая инструкция, которую мы напишем здесь, может устареть в течение нескольких недель). Попробуйте самостоятельно изменять запросы и посмотрите, что получится.

Генерация изображений размером 512 × 512 занимает всего 10 секунд на ПК с Windows, оснащенным графическим процессором Nvidia RTX 3060 12GB. В то же время, на ПК с графическим процессором 3090 Ti это займет всего 4 секунды.

Кроме того, интерфейсы для работы с генерацией изображений продолжают быстро развиваться. Если вы не являетесь специалистом в области техники, не переживайте: скоро появятся более простые решения.

Как работает Stable Diffusion?

Большинство недавних ИИ-моделей используют технику, известную как скрытая диффузия. Это означает, что модель обучается распознавать знакомые формы в шуме и постепенно улучшать изображение, если оно соответствует описанию задачи.

Для создания модели искусственного интеллекта, сначала человек или команда должны собрать набор изображений с метаданными. В случае с использованием Stable Diffusion Stability AI, она использует набор данных LAION-5B, который является огромной коллекцией из 5 миллиардов изображений из интернета.

Недавний анализ показал, что многие изображения в наборе данных были взяты с сайтов, таких как Pinterest, DeviantArt и Getty Images. В результате, Stable Diffusion приняла в себя стили многих живущих художников.

Затем модель обучается на этом наборе данных изображений, используя банк сотен высокопроизводительных графических процессоров, таких как Nvidia A100. Согласно Мостаку, обучение Stable Diffusion на данный момент обошлось в 600 000 долларов (в то время как оценки затрат на обучение других ИСИ обычно измеряются в миллионах долларов).

Модель обучения, используемая для связывания слов с изображениями, называется CLIP и была разработана OpenAI в прошлом году. С помощью метода скрытой диффузии модель изучает статистические ассоциации между цветными пикселями в изображении для каждого субъекта. Это позволяет ей создавать удивительные результаты, даже если она не понимает отношения между пикселями на высоком уровне.

По завершении процесса обучения модель не повторяет никаких изображений из исходного набора, а вместо этого может создавать новые комбинации стилей, основанные на полученных знаниях. В настоящее время Stable

Diffusion не учитывает физические особенности людей, такие как наличие трех рук, двух голов или шести пальцев на каждой руке, поэтому, если у вас нет опыта в создании текстовых подсказок, вам может потребоваться сделать множество изображений и выбрать наилучшие из них.

Однако в будущем модели, вероятно, будут настолько усовершенствованы, что внутренний фильтр будет выполнять всю работу за пользователя.

У SD множество этических и юридических проблем.

Запуск программы Stable Diffusion вызвал беспокойство среди людей, которые опасаются ее воздействия на культуру и экономику. В отличие от DALL-E 2, данные для обучения Stable Diffusion доступны для всех пользователей без жестких ограничений.

В программу включены автоматические фильтры «NSFW» и невидимый отслеживающий водяной знак, встроенный в изображения, но такие ограничения могут быть легко обойдены в открытом исходном коде.

Это означает, что программа может быть использована для создания изображений, которые OpenAI в настоящее время блокирует: пропаганда, насильственные изображения, порнография, нарушающие авторские права, поддельные и т. д.

Лицензия Stable Diffusion официально запрещает многие из этих видов использования, но на практике это трудно контролировать. Когда Мостаку был спрошен об этих опасениях, он заявил, что преимущества перевешивают потенциальные недостатки.

Дополнительно, в процессе обучения Stable Diffusion использует множество произведений искусства, которые были собраны живыми художниками, но без их разрешения. Затем модель генерирует изображения, которые удивительно похожи на эти произведения. Такое поведение вызывает серьезные вопросы о том, кто является автором и на какие права может претендовать.

Нейросети имеют еще одну проблему — культурные предрассудки. При обучении они используют миллионы изображений и связанных с ними метаданных, найденных в Интернете, что приводит к изучению социальных и культурных стереотипов, присутствующих в этих данных.

Например, при бета-тестировании Stable Diffusion на сервере Discord было обнаружено, что почти каждый запрос на «красивую женщину» включал обнаженные женские тела, что отражает широкое распространение подобных изображений в западном обществе.

Хотя некоторые люди обеспокоены, Интернет по-прежнему является самым большим бесплатным источником изображений с метаданными. Однако написание описательных подписей к миллиардам изображений вручную для создания нового набора этических данных является экономически нецелесообразным.

Что будет дальше?

С увеличением вычислительной мощности, вероятно, что доступ к нейросети будет возможен с мобильных устройств. Кроме того, с использованием новых методов, модели будут обучаться на более доступном оборудовании. Это приведет к бурному росту творческих результатов, созданных с помощью искусственного интеллекта.

Сейчас Stable Diffusion уже способна генерировать и обрабатывать видео в режиме реального времени с помощью текстовых подсказок. Это говорит о том, что скоро мы увидим создание фотореалистичного видео и визуальных эффектов с помощью алгоритмов ИИ.

Такие же возможности могут быть расширены на аудио, музыку, видеоигры в реальном времени и виртуальную реальность.

Продвинутые алгоритмы ИИ смогут значительно упростить творческий процесс, используя всего несколько предложений для генерации новых и уникальных идей. Это открывает неограниченный потенциал для создания массового количества развлечений в режиме реального времени, которые могут быть созданы по запросу.

Stable Diffusion использует сотни миллионов изображений для создания 4,2 ГБ файла, содержащего сжатую информацию обо всех изображениях. Эта технология может быть использована в будущем для сжатия художественных фильмов, например, чтобы уменьшить размер 8 КБ фильма до нескольких мегабайт текста.

Это может позволить любому желающему создавать свои собственные художественные фильмы. Влияние этой технологии еще не исследовано, но она может привести к совершенно новым направлениям, которые мы не можем предвидеть в настоящее время.

Однако, использование реалистичных моделей генерации изображений может иметь негативные последствия, такие как пропаганда и дезинформация, изменение истории и уменьшение юридической ценности фото- и видеодоказательств. Можем ли мы различать настоящие фотографии от тех, которые создал ИИ?

Несмотря на это, человечество всегда адаптируется к изменениям, даже если наши культурные рамки меняются радикально. Это было понятно еще в древности, когда древнегреческий философ Гераклит заметил, что «единственной постоянной является изменение».

В конечном итоге, Stable Diffusion может стать еще одним инструментом для быстрого и доступного выражения идей. Несмотря на то, что генерируемые SD ресурсы могут не использоваться как конечный продукт, они могут быть использованы для создания текстур в прототипах игр или создания логотипов для проектов с открытым исходным кодом.

Открытый исходный код является двуединым инструментом, потому что любой может использовать его в своих целях. В то же время, лицензия на модель запрещает ее использование в неблаговидных целях, однако, мы не можем предсказать все последствия на долгосрочной основе.

Прогноз на десять или пятнадцать лет может быть очень неопределенным, особенно учитывая, что трудно представить, что можно было бы сделать с версией, которая будет в 10 раз лучше и работать в реальном времени.

Инвестирую каждый месяц в биткоин и показываю, как сделаю 1500% прибыли. (Повторив результат 2021 года)

Расписал стратегию с суммами от 80 до 2000$ в месяц, в закрепе.

Дарю вам доступ в закрытый телеграмм канал. Где я раскрываюсь больше, как автор для вас.

0
Комментарии
Читать все 0 комментариев
null