Чем интересна Stable Diffusion 3: оцениваем производительность и сравниваем нейросеть с конкурентами

В июне вышла «Сommunity-версия» Stable Diffusion 3 Medium. Разработчики анонсировали улучшение восприятия запросов и оптимизацию для домашних компьютеров. Так ли это? В этом материале сравним Stable Diffusion 3 с конкурентами и сделаем выводы.

Используйте навигацию, если не хотите читать текст полностью:

→ Новое лицензионное соглашение

→ Визуальное сравнение

→ Сравнение производительности

Stable Diffusion долгое время радовала своей открытостью. Каждый пользователь мог развернуть модель локально, дообучить разными способами и использовать результат по своему желанию. В том числе в коммерческих целях — лицензия CreativeML Open RAIL++-M это позволяет.

К сожалению, Stable Diffusion 3 вышла под другой лицензией с тремя уровнями использования.

Некоммерческая. Лицензия бесплатна и дает доступ к API StabilityAI, в том числе к SDXL Turbo.
Creator License. Стоимость — 20 $/мес, региональных цен нет. Включает в себя 6 000 генераций в Stable Diffusion 3 Medium и право использовать их в коммерческих целях. Но есть и ограничения — у проекта должен быть годовой доход меньше миллиона долларов и менее миллиона активных пользователей в месяц.
Enterprise License. На индивидуальных условиях для крупных компаний.

Отдельно стоит отметить, что Creator License дает бесплатные генерации только для Medium-версии, которую можно развернуть локально. Закрытую Large-версию нужно оплачивать отдельно с примерным тарифом 0,07 $ за изображение. При этом на странице модели на Hugging Face указано, что локальная Medium-версия недоступна для коммерческого использования.

Для сравнения, Midjourney предоставляет 200 изображений за 10 $ (0,05 $ за изображение) или 900 изображений за 30 $ (0,03 $ за изображение). При этом тариф за 30 $ отличается наличием безлимитных генераций с пониженным приоритетом.

Для сравнения поколений используем как локальные модели, так и официальное API StabilityAI. Пробежимся по первым.

v1-5-pruned.safetensors— версия 1.5, октябрь 2022.
v2-1_768-ema-pruned.safetensors— версия 2.1, декабрь 2022.
sd_xl_base_1.0.safetensors— версия SDXL 1.0, июль 2023.
sd3_medium_incl_clips.safetensors — версия 3 Medium, июнь 2024. Для скачивания нужно зарегистрироваться на Hugging Face и заполнить форму.

Локальные модели запускаются через ComfyUI. Это обусловлено тем, что на момент написания статьи интерфейс от AUTOMATIC1111 не поддерживает третье поколение моделей. Старые версии запускаются со стандартной схемой (workflow) ComfyUI, а SD3 — с отдельной. Модели, доступные через StabilityAI API — Stable Diffusion 3 Medium и Stable Diffusion 3 Large.

Текст посвящен Stable Diffusion, однако есть множество конкурентов, которые стараются не отставать. Добавим несколько сторонних моделей:

Midjourney v6,
DALL-E 3(через ChatGPT),
Ideogram 1.0,
Kandinsky 3.1(запросы переводятся на русский язык дословно),
PixArt Sigma 1024px (локальная модель, но использовали демо на HuggingFace).

Для взаимодействия с «внешними» Stable Diffusion используется Python-скрипт из документации.

<i>Запрос: lighthouse on a cliff overlooking the ocean.</i>

Первый запрос я нашел в документации API. Абстрактные пейзажи — это хороший старт. Medium, на мой взгляд, рисует «плоские» картинки, а вот Large выдает интересный результат. DALL-E самостоятельно выделилась не квадратным изображением. Пейзажи сразу были хороши, поэтому перейдем к генерации людей.

<i>Запрос: photo of a woman lying in the grass, best quality.</i>

Сложно сказать, что «чистая» Stable Diffusion ранних версий рисовала людей хорошо, но SDXL укрепляла надежду в светлое будущее красивой анатомии. SD3 в текущем варианте разрушила эти надежды. В сообществе на Reddit высказывают мысли, что плохая генерация анатомии может быть следствием цензуры модели. Впрочем, на civitai уже можно найти рефайнеры для SD3.

Запрос для изображения выше очень длинный: funny smiling brown dog, with glasses, with tongue hanging out. Ralph Steadman-inspired character design with exaggerated, thick line hand-drawn style. Rendered to give a plush, soft texture feel. Create this in vector style with watercolor effects, set against a plain white background. The artwork should embody a minimalist aesthetic, focusing on the front view of the character. High emphasis on the unique Steadman dynamic lines, while maintaining a charming and whimsical look.

Рисунки животных генерируются отлично, на детальные описания нейросети реагируют хорошо. Исключение — DALL-E, которая ответила, что запрос нарушает контентную политику.

Длинные запросы могут путать генерацию. Однако еще больше путают максимально краткие и сухие запросы. Например, «ложка».

Обычная ложка запутала только SD1.5, Kandinsky 3.1 и PixArt. Остальные справились успешно. Посредник в общении с DALL-E, ChatGPT, пыталась выяснять что именно нужно нарисовать. В итоге ответ «просто ложка» привел к желаемому результату.

В прошлом обзоре на Midjourney я отмечал, что генерация текста значительно улучшилась. Посмотрим, есть ли такая тенденция у SD.

<i>Запрос: t-shirt with text «best grandma».</i>

С текстами все относительно хорошо, хотя дополнительные детали наводят на вопросы. Почему ideogram нарисовал молодую девушку? Почему Kandinsky нарисовал «best grandma», если его попросили «лучшая бабуля»? Чьи колени на фоне у Midjourney? Эти вопросы останутся без ответа.

Осталось еще одно испытание — отрицание в запросе.

Вот так попросишь бургер без огурцов, а в восьми случаях из десяти они есть. И это не значит, что в двух оставшихся пожелание исполнено — в них что-то не так с бургером в целом. Но ведь есть негативный промпт? Да, промпт-инжиниринг никто не отменял, но этот запрос очень человечный.

<i>Запрос: burger. Негативный запрос: cucumber.</i>

Да, так гораздо лучше, но не все нейронные сети принимают такой вид бургеров.

В конце визуальной части небольшой бонус: картинки из официальных промптов SD3 Medium, запрошенные во всех нейросетях.

<i>Запрос: anime art of a steampunk inventor in their workshop, surrounded by gears, gadgets, and steam. He is holding a blue potion and a red potion, one in each hand.</i>

<i>Запрос: photo of picturesque scene of a road surrounded by lush green trees and shrubs. The road is wide and smooth, leading into the distance. On the right side of the road, there’s a blue sports car parked with the license plate spelling «SD32B». The sky</i>

Запрос для изображения с автомобилями: Запрос: photo of picturesque scene of a road surrounded by lush green trees and shrubs. The road is wide and smooth, leading into the distance. On the right side of the road, there’s a blue sports car parked with the license plate spelling «SD32B». The sky above is partly cloudy, suggesting a pleasant day. The trees have a mix of green and brown foliage. There are no people visible in the image. The overall composition is balanced, with the car serving as a focal point.

<i>Запрос: a vibrant street wall covered in colorful graffiti, the centerpiece spells «SD3 MEDIUM», in a storm of colors.</i>

Все изображения, использованные в статье, доступны в архиве.

Критерии «красивее», «фотореалистичнее» и «лучше понимает запрос» — субъективные метрики, которые сильно зависят от стиля, личных предпочтений человека и умения составлять запросы. Однако нам обещали производительность, которую мы можем измерить.

Для запуска локальных моделей используется следующая аппаратная конфигурация:

Intel i5-10500,
32 GB RAM,
RTX 3060,
SSD,
Windows 10.

Какие параметры измеряем? Во-первых, объем занимаемой VRAM. Замеряется мониторингом ОС (диспетчером задач). Во-вторых, среднее время генерации изображения размером 1024×1024. Отображается в логах ComfyUI для каждого запроса.

Для разных моделей используется одинаковая конфигурация запроса.

Запрос — a female character with long, flowing hair that appears to be made of ethereal, swirling patterns resembling the Northern Lights or Aurora Borealis. The background is dominated by deep blues and purples, creating a mysterious and dramatic atmosphere. The character’s face is serene, with pale skin and striking features. She wears a dark-colored outfit with subtle patterns. The overall style of the artwork is reminiscent of fantasy or supernatural genres.
Негативный запрос: <пусто>.
Шагов: 20.
Сэмплер: dpmpp_2m.

Чем интересна Stable Diffusion 3: оцениваем производительность и сравниваем нейросеть с конкурентами

При сравнении «в лоб» оптимизация не видна. Видеопамяти актуальная модель требует не меньше, а времени занимает больше. Может быть есть возможность запускать модель на видеокартах с малым объемом оперативной памяти, но мне это останется неизвестным.

А вы уже пользовались Stable Diffusion 3? Поделитесь в комментариях своими впечатлениями от апдейта. Или расскажите о генеративных нейросетях, которые считаете для себя наиболее удобными и эффективными.

#selectel #stablediffusion #stablediffusion3 #machinelearning #генерацияизображений #wbarticle