Что нейросети могут делать с изображениями на примере Stable Diffusion

Сегодня поговорим о сети Stable Diffusion. В отличие от других генераторов изображений, она хороша тем, что для нее можно добавлять "моды", которые дают ей конкретные функций, применимые в практической деятельности как дизайнера, так и продавца OZON

Что такое Stable Diffusion?

Это одна из "большой тройки" генераторов изображений. Яндекс туда не входит=)) Остальные два - Dalle и Midjourney.

Dalle стремится к хорошему созданию фотографий, но отлично справляется пока только с графикой. Midjourney делает хорошие крупные планы, хоть в и мультяшном 3d стиле.

Stable Diffusion же хвалится тем, что создали нейросеть, не уступающую конкурентам, при этом используя для обучения не миллиарды образцов, а лишь миллионы. Классический стабл делает хорошие концептуальные картинки, но с модами он преображается и становится применим в работе не только людей, связанных с искусством.

Что умеет Stable Diffusion?

Стабильная диффузия - проникновение изображений друг в друге на основе миллионной выборке. Причем проникновение стабильное, без уродств.

Какие бывают уродства?

Уродства случаются, когда изображение не квадратное, диффузия летит куда-то вбок. И тогда появляются артефакты. Так же артефакты появляются, когда выборка изображений для генерации слишком большая.

Давайте посмотрим на примеры. Больше всего будут видны артефакты на основе обученной, но никак не настроенной модели SD - OpenJourney

Когда задаем кривой запрос, мы получаем вихрь:

Что нейросети могут делать с изображениями на примере Stable Diffusion

Когда не настроен вес, температура и всякая подобная фигня, получаем:

Что нейросети могут делать с изображениями на примере Stable Diffusion

А это бегемот:

Что нейросети могут делать с изображениями на примере Stable Diffusion

Итак, пробуем поднастроить и уже выходит не плохо...

Всегда обращайте внимание на количество пальцев. Даже Midjourney с их идеальными лицами, делает по 6-7 пальцев на руке.
Всегда обращайте внимание на количество пальцев. Даже Midjourney с их идеальными лицами, делает по 6-7 пальцев на руке.

Еще немного и все хорошо:

А теперь нормальные примеры

Stable Diffusion хорош тем, что он открыт для разрабочиков и на основе него можно создавать обученные модели (моды).

Сейчас посмотрим, как он работает в базовом и в обученном виде. Один минус, в обученном виде он работает только через Api, то есть на сервисах, созданных сторонними разработчиками и стоит денег, хоть и небольших.

Сам SD в базовой браузерной версии бесплатный, но тупит=))

Базовая версия Stable Diffusion

Классическая генерация изображений по любому запросу. Базовый SD схож с Dall-e, без подробных промптов он выдает странные изображения. Магия наступает в обученных версиях.

old man walking on new york
old man walking on new york

Что, если писать подробные промпты:

Pixar style little girl, 4k, 8k, unreal engine, octane render photorealistic by cosmicwonder, hdr, photography by cosmicwonder, high definition, symmetrical face, volumetric lighting, dusty haze, photo, octane render ultra realistic
Pixar style little girl, 4k, 8k, unreal engine, octane render photorealistic by cosmicwonder, hdr, photography by cosmicwonder, high definition, symmetrical face, volumetric lighting, dusty haze, photo, octane render ultra realistic
ultra realistic photo portrait of Scarlett Leithold cosmic energy, colorful, painting burst, beautiful symmetrical face, nonchalant kind look, realistic round eyes, tone mapped, intricate, elegant, highly detailed, digital painting, artstation, concept art, smooth, sharp focus 4k, 8k
ultra realistic photo portrait of Scarlett Leithold cosmic energy, colorful, painting burst, beautiful symmetrical face, nonchalant kind look, realistic round eyes, tone mapped, intricate, elegant, highly detailed, digital painting, artstation, concept art, smooth, sharp focus 4k, 8k
beautiful, young woman, cybernetic, cyberpunk, detailed gorgeous face, flowing hair, vaporwave aesthetic, synthwave , digital painting, artstation, concept art, smooth, sharp focus, illustration, art by artgerm and greg rutkowski and alphonse mucha
beautiful, young woman, cybernetic, cyberpunk, detailed gorgeous face, flowing hair, vaporwave aesthetic, synthwave , digital painting, artstation, concept art, smooth, sharp focus, illustration, art by artgerm and greg rutkowski and alphonse mucha

И опять же! Короткий промпт "beautiful girl", ужас:

Логотип (мод - Logos)

Включили мод, при котором нейросеть автоматически генерирует логотипы, и получаем классные графичные картинки

Что нейросети могут делать с изображениями на примере Stable Diffusion

rhino:

beautiful girl
beautiful girl

Колоризация (обученная модель)

Если хотите увидеть в необычном формате старые семейные фото, используйте мод для колоризации. Причем нейросеть, судя по всему, понимает, что есть что на изображении (на основе миллионов плюс-минус похожих) и правильно окрашивает элементы. Понятно, что некоторые вещи не имеют типового цвета и сеть может ошибиться.

Что нейросети могут делать с изображениями на примере Stable Diffusion

Изменение внешности (обученная модель)

Хотите примерить новую прическу? Выглядит на примере, не очень))

Что нейросети могут делать с изображениями на примере Stable Diffusion

OpenJourney

Это обученная модель, перенявшая в себя некоторые визуальные приемы Midjourne, но все же картинки явно другие.

photo of 8k ultra realistic harbour, port, boats, sunset, beautiful light, golden hour, full of colour, cinematic lighting, battered, trending on artstation, 4k, hyperrealistic, focused, extreme details, unreal engine 5, cinematic
photo of 8k ultra realistic harbour, port, boats, sunset, beautiful light, golden hour, full of colour, cinematic lighting, battered, trending on artstation, 4k, hyperrealistic, focused, extreme details, unreal engine 5, cinematic
photo of 8k ultra realistic harbour, port, boats, sunset, beautiful light, golden hour, full of colour, cinematic lighting, battered, trending on artstation, 4k, hyperrealistic, focused, extreme details, unreal engine 5, cinematic
photo of 8k ultra realistic harbour, port, boats, sunset, beautiful light, golden hour, full of colour, cinematic lighting, battered, trending on artstation, 4k, hyperrealistic, focused, extreme details, unreal engine 5, cinematic

Как пользоваться Stable Diffusion?

В чистом виде Stabble Diffusion доступен бесплатно на их сайте.

Что нейросети могут делать с изображениями на примере Stable Diffusion
Ну или так=)
Ну или так=)

На сайте генерация дольше и иногда есть ошибки. Часто выдает ошибки, о чем свидетельствует оповещение сверху поля для ввода. Более быстрая генерация только при работе через Api за деньги.

Как пользоваться модами?

Для использования обученных моделей (модов), обычно применяется Api с разработками, которые можно внедрять в различные сервисы.

Мы так же через api интегрировали Stable Diffusion и моды в тг. Там так же нейросеть Kandinsky от Сбера. В конце статьи можете все проекты посмотреть=)

Так же отмечу, что в SD важно писать подробные Промпты - задания для нейросети.

PS. лайк, пожалуйста, он помогает продвижению статьи, а значит дает мотивацию писать дальше

Ну и как положено на VC, канал телеграм))) Канал и чатик

Туда выкладываю статьи VC и то, что нет в VC. Мысли, идеи, опыт.

В закрепленных канале всегда телеграм боты Kolersky для доступа в ChatGPT, GPT-4 без VPN, а так же генераторы изображений Midjourney, Dall-e, Stable Diffusion (проект KolerskyAI).

20
15 комментариев

Главный плюс SD это что там не залочен 18+ и основная движуха с модами идет в области порнухи (и успехи там прям впечатляющие)
Как известно, порнуха - главный двигатель прогресса, который потом внедряется в остальные отрасли (потоковое видео, p2p, платежи онлайн итд) Так что за SD будущее

2
Ответить

Есть ещё второй двигатель прогресса, он интересно только со стороны наблюдает?

1
Ответить

Привет. Локальный stable diffusion обладает всеми плюсами которые вы указали, а так же дополнительными: возможность использовать свои обученные модели на основе ваших изображений, возможностью поднять sd на сервере в локальной сети и пошарить доступ к веб интерфейсу и т.д. Сильной стороной является возможность использования двух обученных моделей для создания уникального визуального стиля, а так же промт расширение - функционал который генерирует расширенные подробные промты с помощью нейросети.

А главное - бесплатно полностью и неограниченно конфигурируемо. Установка занимает около получаса, из которых 20 минут это клонирование репозиториев.

1
Ответить

А что с авторскими правами на картинки?

Ответить
1
Ответить

"Стабильная диффузия - проникновение изображений друг в друге на основе миллионной выборке. Причем проникновение стабильное, без уродств." — чего?))))

"Для использования обученных моделей (модов), применяется только Api с разработками." — чегоооо?)))

Ответить

Скажите, где ошибки. Исправим и вынесем изменения в статью )

Ответить