{"id":14287,"url":"\/distributions\/14287\/click?bit=1&hash=1d1b6427c21936742162fc18778388fc58ebf8e17517414e1bfb1d3edd9b94c0","title":"\u0412\u044b\u0440\u0430\u0441\u0442\u0438 \u0438\u0437 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u0430 \u0434\u043e \u0440\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044f \u0437\u0430 \u0433\u043e\u0434","buttonText":"","imageUuid":""}

Что нейросети могут делать с изображениями на примере Stable Diffusion

Сегодня поговорим о сети Stable Diffusion. В отличие от других генераторов изображений, она хороша тем, что для нее можно добавлять "моды", которые дают ей конкретные функций, применимые в практической деятельности как дизайнера, так и продавца OZON

Что такое Stable Diffusion?

Это одна из "большой тройки" генераторов изображений. Яндекс туда не входит=)) Остальные два - Dalle и Midjourney.

Dalle стремится к хорошему созданию фотографий, но отлично справляется пока только с графикой. Midjourney делает хорошие крупные планы, хоть в и мультяшном 3d стиле.

Stable Diffusion же хвалится тем, что создали нейросеть, не уступающую конкурентам, при этом используя для обучения не миллиарды образцов, а лишь миллионы. Классический стабл делает хорошие концептуальные картинки, но с модами он преображается и становится применим в работе не только людей, связанных с искусством.

Что умеет Stable Diffusion?

Стабильная диффузия - проникновение изображений друг в друге на основе миллионной выборке. Причем проникновение стабильное, без уродств.

Какие бывают уродства?

Уродства случаются, когда изображение не квадратное, диффузия летит куда-то вбок. И тогда появляются артефакты. Так же артефакты появляются, когда выборка изображений для генерации слишком большая.

Давайте посмотрим на примеры. Больше всего будут видны артефакты на основе обученной, но никак не настроенной модели SD - OpenJourney

Когда задаем кривой запрос, мы получаем вихрь:

Когда не настроен вес, температура и всякая подобная фигня, получаем:

А это бегемот:

Итак, пробуем поднастроить и уже выходит не плохо...

Всегда обращайте внимание на количество пальцев. Даже Midjourney с их идеальными лицами, делает по 6-7 пальцев на руке.

Еще немного и все хорошо:

А теперь нормальные примеры

Stable Diffusion хорош тем, что он открыт для разрабочиков и на основе него можно создавать обученные модели (моды).

Сейчас посмотрим, как он работает в базовом и в обученном виде. Один минус, в обученном виде он работает только через Api, то есть на сервисах, созданных сторонними разработчиками и стоит денег, хоть и небольших.

Сам SD в базовой браузерной версии бесплатный, но тупит=))

Базовая версия Stable Diffusion

Классическая генерация изображений по любому запросу. Базовый SD схож с Dall-e, без подробных промптов он выдает странные изображения. Магия наступает в обученных версиях.

old man walking on new york

Что, если писать подробные промпты:

Pixar style little girl, 4k, 8k, unreal engine, octane render photorealistic by cosmicwonder, hdr, photography by cosmicwonder, high definition, symmetrical face, volumetric lighting, dusty haze, photo, octane render ultra realistic
ultra realistic photo portrait of Scarlett Leithold cosmic energy, colorful, painting burst, beautiful symmetrical face, nonchalant kind look, realistic round eyes, tone mapped, intricate, elegant, highly detailed, digital painting, artstation, concept art, smooth, sharp focus 4k, 8k
beautiful, young woman, cybernetic, cyberpunk, detailed gorgeous face, flowing hair, vaporwave aesthetic, synthwave , digital painting, artstation, concept art, smooth, sharp focus, illustration, art by artgerm and greg rutkowski and alphonse mucha

И опять же! Короткий промпт "beautiful girl", ужас:

Логотип (мод - Logos)

Включили мод, при котором нейросеть автоматически генерирует логотипы, и получаем классные графичные картинки

rhino:

beautiful girl

Колоризация (обученная модель)

Если хотите увидеть в необычном формате старые семейные фото, используйте мод для колоризации. Причем нейросеть, судя по всему, понимает, что есть что на изображении (на основе миллионов плюс-минус похожих) и правильно окрашивает элементы. Понятно, что некоторые вещи не имеют типового цвета и сеть может ошибиться.

Изменение внешности (обученная модель)

Хотите примерить новую прическу? Выглядит на примере, не очень))

OpenJourney

Это обученная модель, перенявшая в себя некоторые визуальные приемы Midjourne, но все же картинки явно другие.

photo of 8k ultra realistic harbour, port, boats, sunset, beautiful light, golden hour, full of colour, cinematic lighting, battered, trending on artstation, 4k, hyperrealistic, focused, extreme details, unreal engine 5, cinematic
photo of 8k ultra realistic harbour, port, boats, sunset, beautiful light, golden hour, full of colour, cinematic lighting, battered, trending on artstation, 4k, hyperrealistic, focused, extreme details, unreal engine 5, cinematic

Как пользоваться Stable Diffusion?

В чистом виде Stabble Diffusion доступен бесплатно на их сайте.

Ну или так=)

На сайте генерация дольше и иногда есть ошибки. Часто выдает ошибки, о чем свидетельствует оповещение сверху поля для ввода. Более быстрая генерация только при работе через Api за деньги.

Как пользоваться модами?

Для использования обученных моделей (модов), обычно применяется Api с разработками, которые можно внедрять в различные сервисы.

Мы так же через api интегрировали Stable Diffusion и моды в тг. Там так же нейросеть Kandinsky от Сбера. В конце статьи можете все проекты посмотреть=)

Так же отмечу, что в SD важно писать подробные Промпты - задания для нейросети.

PS. лайк, пожалуйста, он помогает продвижению статьи, а значит дает мотивацию писать дальше

Ну и как положено на VC, канал телеграм))) Канал и чатик

Туда выкладываю статьи VC и то, что нет в VC. Мысли, идеи, опыт.

В закрепленных канале всегда телеграм боты Kolersky для доступа в ChatGPT, GPT-4 без VPN, а так же генераторы изображений Midjourney, Dall-e, Stable Diffusion (проект KolerskyAI).

0
15 комментариев
Написать комментарий...
Артур Маслов

Главный плюс SD это что там не залочен 18+ и основная движуха с модами идет в области порнухи (и успехи там прям впечатляющие)
Как известно, порнуха - главный двигатель прогресса, который потом внедряется в остальные отрасли (потоковое видео, p2p, платежи онлайн итд) Так что за SD будущее

Ответить
Развернуть ветку
Иван Егоров

Есть ещё второй двигатель прогресса, он интересно только со стороны наблюдает?

Ответить
Развернуть ветку
Антон Глоба

О нем обычно сразу не говорят

Ответить
Развернуть ветку
Buddha

Привет. Локальный stable diffusion обладает всеми плюсами которые вы указали, а так же дополнительными: возможность использовать свои обученные модели на основе ваших изображений, возможностью поднять sd на сервере в локальной сети и пошарить доступ к веб интерфейсу и т.д. Сильной стороной является возможность использования двух обученных моделей для создания уникального визуального стиля, а так же промт расширение - функционал который генерирует расширенные подробные промты с помощью нейросети.

А главное - бесплатно полностью и неограниченно конфигурируемо. Установка занимает около получаса, из которых 20 минут это клонирование репозиториев.

Ответить
Развернуть ветку
Иван Егоров

А что с авторскими правами на картинки?

Ответить
Развернуть ветку
Buddha

Великолепный вопрос. Если вы про лицензию local sd - то вы с помощью скриптов вы создаете уникальное новое изображение путем ввода уникального промта и seed. Значит автор - вы - тот кто создает изображение. Если про материалы для обучения, тут сложнее. Так как вы можете обучать модель на основе собственной подборки материалов. В теории - вы можете генерировать изображения свободные от потенциальных претензий авторов. Теоретический кейс: дизайн студия обучает модель на основе собственного портфолио, wip, концептов - в таком случае база для обучения будет достаточно объемной, IP (intellectual property) будет принадлежать студии. Но это сферический конь в вакууме. В реальности - IP моделей серая зона и нормального регулирования попросту нет.

Ответить
Развернуть ветку
Timur Aristov
Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Vasiliy Leytman

"Стабильная диффузия - проникновение изображений друг в друге на основе миллионной выборке. Причем проникновение стабильное, без уродств." — чего?))))

"Для использования обученных моделей (модов), применяется только Api с разработками." — чегоооо?)))

Ответить
Развернуть ветку
Евгений Вилков
Автор

Скажите, где ошибки. Исправим и вынесем изменения в статью )

Ответить
Развернуть ветку
Vasiliy Leytman

stable diffusion — это просто код, какое API? поставил куда-либо (на комп, на сервер, на инстанс), использовал.
ну а первое предложение про проникновение изображений друг в другЕ на основе миллионной выборкЕ — тут то ли переводчика изнасиловали, то ли что, смысла в этом никакого нет. чего проникновение? куда? на какой миллионной выборке?) разберитесь сначала, мб, потом статьи пишите)))

Ответить
Развернуть ветку
Artem

С MJ v5 мне гораздо проще оказалось получить крутой контент для таргета.
Возможно, "арты" SD генерирует лучше, чем MJ.

Ответить
Развернуть ветку
Buddha

Sd требует твиков настроек, тогда можно делать «не хуже». Он сложнее но и мощнее (с точки зрения возможностей). Имхо

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Nina Kaverina

достаточно неплохие работы как для ии

Ответить
Развернуть ветку
Buddha

Я набросал туториал по установке локальной версии stable diffusion. Welcome 🤗

https://vc.ru/ml/693785-stable-diffusion-ustanovka-i-nastroyka-lokalnoy-versii-dlya-besplatnoy-generacii-izobrazheniy-bez-ogranicheniy

Ответить
Развернуть ветку
12 комментариев
Раскрывать всегда