Что нейросети могут делать с изображениями на примере Stable Diffusion

Сегодня поговорим о сети Stable Diffusion. В отличие от других генераторов изображений, она хороша тем, что для нее можно добавлять "моды", которые дают ей конкретные функций, применимые в практической деятельности как дизайнера, так и продавца OZON

Это одна из "большой тройки" генераторов изображений. Яндекс туда не входит=)) Остальные два - Dalle и Midjourney.

Dalle стремится к хорошему созданию фотографий, но отлично справляется пока только с графикой. Midjourney делает хорошие крупные планы, хоть в и мультяшном 3d стиле.

Stable Diffusion же хвалится тем, что создали нейросеть, не уступающую конкурентам, при этом используя для обучения не миллиарды образцов, а лишь миллионы. Классический стабл делает хорошие концептуальные картинки, но с модами он преображается и становится применим в работе не только людей, связанных с искусством.

Стабильная диффузия - проникновение изображений друг в друге на основе миллионной выборке. Причем проникновение стабильное, без уродств.

Какие бывают уродства?

Уродства случаются, когда изображение не квадратное, диффузия летит куда-то вбок. И тогда появляются артефакты. Так же артефакты появляются, когда выборка изображений для генерации слишком большая.

Давайте посмотрим на примеры. Больше всего будут видны артефакты на основе обученной, но никак не настроенной модели SD - OpenJourney

Когда задаем кривой запрос, мы получаем вихрь:

Что нейросети могут делать с изображениями на примере Stable Diffusion

Когда не настроен вес, температура и всякая подобная фигня, получаем:

А это бегемот:

Итак, пробуем поднастроить и уже выходит не плохо...

Всегда обращайте внимание на количество пальцев. Даже Midjourney с их идеальными лицами, делает по 6-7 пальцев на руке.

Еще немного и все хорошо:

Stable Diffusion хорош тем, что он открыт для разрабочиков и на основе него можно создавать обученные модели (моды).

Сейчас посмотрим, как он работает в базовом и в обученном виде. Один минус, в обученном виде он работает только через Api, то есть на сервисах, созданных сторонними разработчиками и стоит денег, хоть и небольших.

Сам SD в базовой браузерной версии бесплатный, но тупит=))

Базовая версия Stable Diffusion

Классическая генерация изображений по любому запросу. Базовый SD схож с Dall-e, без подробных промптов он выдает странные изображения. Магия наступает в обученных версиях.

Что, если писать подробные промпты:

Pixar style little girl, 4k, 8k, unreal engine, octane render photorealistic by cosmicwonder, hdr, photography by cosmicwonder, high definition, symmetrical face, volumetric lighting, dusty haze, photo, octane render ultra realistic

ultra realistic photo portrait of Scarlett Leithold cosmic energy, colorful, painting burst, beautiful symmetrical face, nonchalant kind look, realistic round eyes, tone mapped, intricate, elegant, highly detailed, digital painting, artstation, concept art, smooth, sharp focus 4k, 8k

beautiful, young woman, cybernetic, cyberpunk, detailed gorgeous face, flowing hair, vaporwave aesthetic, synthwave , digital painting, artstation, concept art, smooth, sharp focus, illustration, art by artgerm and greg rutkowski and alphonse mucha

И опять же! Короткий промпт "beautiful girl", ужас:

Логотип (мод - Logos)

Включили мод, при котором нейросеть автоматически генерирует логотипы, и получаем классные графичные картинки

rhino:

Колоризация (обученная модель)

Если хотите увидеть в необычном формате старые семейные фото, используйте мод для колоризации. Причем нейросеть, судя по всему, понимает, что есть что на изображении (на основе миллионов плюс-минус похожих) и правильно окрашивает элементы. Понятно, что некоторые вещи не имеют типового цвета и сеть может ошибиться.

Изменение внешности (обученная модель)

Хотите примерить новую прическу? Выглядит на примере, не очень))

OpenJourney

Это обученная модель, перенявшая в себя некоторые визуальные приемы Midjourne, но все же картинки явно другие.

photo of 8k ultra realistic harbour, port, boats, sunset, beautiful light, golden hour, full of colour, cinematic lighting, battered, trending on artstation, 4k, hyperrealistic, focused, extreme details, unreal engine 5, cinematic

В чистом виде Stabble Diffusion доступен бесплатно на их сайте.

На сайте генерация дольше и иногда есть ошибки. Часто выдает ошибки, о чем свидетельствует оповещение сверху поля для ввода. Более быстрая генерация только при работе через Api за деньги.

Для использования обученных моделей (модов), обычно применяется Api с разработками, которые можно внедрять в различные сервисы.

Мы так же через api интегрировали Stable Diffusion и моды в тг. Там так же нейросеть Kandinsky от Сбера. В конце статьи можете все проекты посмотреть=)

Так же отмечу, что в SD важно писать подробные Промпты - задания для нейросети.

PS. лайк, пожалуйста, он помогает продвижению статьи, а значит дает мотивацию писать дальше

Ну и как положено на VC, канал телеграм))) Канал и чатик

Туда выкладываю статьи VC и то, что нет в VC. Мысли, идеи, опыт.

В закрепленных канале всегда телеграм боты Kolersky для доступа в ChatGPT, GPT-4 без VPN, а так же генераторы изображений Midjourney, Dall-e, Stable Diffusion (проект KolerskyAI).

15 комментариев

Артур Маслов

13.05.2023

Главный плюс SD это что там не залочен 18+ и основная движуха с модами идет в области порнухи (и успехи там прям впечатляющие)
Как известно, порнуха - главный двигатель прогресса, который потом внедряется в остальные отрасли (потоковое видео, p2p, платежи онлайн итд) Так что за SD будущее

Ответить

Иван Егоров

Есть ещё второй двигатель прогресса, он интересно только со стороны наблюдает?

Buddha

Привет. Локальный stable diffusion обладает всеми плюсами которые вы указали, а так же дополнительными: возможность использовать свои обученные модели на основе ваших изображений, возможностью поднять sd на сервере в локальной сети и пошарить доступ к веб интерфейсу и т.д. Сильной стороной является возможность использования двух обученных моделей для создания уникального визуального стиля, а так же промт расширение - функционал который генерирует расширенные подробные промты с помощью нейросети.

А главное - бесплатно полностью и неограниченно конфигурируемо. Установка занимает около получаса, из которых 20 минут это клонирование репозиториев.

А что с авторскими правами на картинки?

Timur Aristov

Vasiliy Leytman

"Стабильная диффузия - проникновение изображений друг в друге на основе миллионной выборке. Причем проникновение стабильное, без уродств." — чего?))))

"Для использования обученных моделей (модов), применяется только Api с разработками." — чегоооо?)))

Евгений Вилков

Автор

Скажите, где ошибки. Исправим и вынесем изменения в статью )

Что нейросети могут делать с изображениями на примере Stable Diffusion

Что такое Stable Diffusion?

Что умеет Stable Diffusion?

А теперь нормальные примеры

Как пользоваться Stable Diffusion?

Как пользоваться модами?