Stability AI наконец-то выпустила веса для Stable Diffusion 3 Medium

Ожидание закончилось. Компания Stability AI выпустила открытые веса для Stable Diffusion 3, самой продвинутой модели преобразования текста в изображение. SD3 Medium - это модель с 2 миллиардами параметров, специально разработанная для того, чтобы добиться превосходства в тех областях, в которых предыдущие модели испытывали трудности.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Для ясности, будет две версии SD3: одна с 2 миллиардами параметров, другая - с 8 миллиардами.

Пока неясно, когда Stability AI выпустит более крупную модель. Удивительно, но младшая модель уже впечатляет.

ChatGPT на русском - бот, который работает в Телеграм без ВПН.
С помощью бота вы можете пользоваться DALLE-3 и ChatGPT на русском языке. Здесь все как обычно - пишете запрос, и быстро получаете ответ.

Stable Diffusion 3 Medium разработан для эффективной работы на потребительских графических процессорах без ущерба для производительности, благодаря малому объему VRAM. Кроме того, она хорошо настраивается и способна улавливать мельчайшие детали из небольших наборов данных.

Stability AI сотрудничала с NVIDIA для оптимизации всех моделей Stable Diffusion, включая Stable Diffusion 3 Medium, для графических процессоров NVIDIA RTX с помощью TensorRT2. В результате этого сотрудничества производительность выросла на 50%, что обеспечивает лучшую в своем классе производительность.

Взгляните на эти примеры изображений, созданных с помощью новой модели SD3 Medium:

Первое, что я заметил, - это улучшенный рендеринг текста и повышенная фотореалистичность.

Посмотрите на детали на земле, деревьях и бороде на этом примере изображения.

Вот некоторые из наиболее заметных новых функций:

Фотореализм. Устраняет распространенные артефакты на руках и лицах, создавая высококачественные изображения, не требующие сложных рабочих процессов.
Генерация текста. Обеспечивает высококачественные результаты в типографике, превосходящие возможности более крупных современных моделей.
Производительность. Оптимизирована как для потребительских систем, так и для корпоративных рабочих нагрузок с превосходной эффективностью и размером.
Тонкая настройка. Превосходно справляется с улавливанием мельчайших деталей из небольших наборов данных, что делает его идеальным для персонализации и творческих приложений.

В Stable Diffusion 3 используется Rectified Flow - генеративная модель, которая соединяет данные и шум в прямую линию. Этот подход улучшает традиционные модели диффузии за счет упрощения прямого процесса и потенциального повышения эффективности выборки.

В модели используются новые шумовые сэмплеры, которые подчеркивают перцептивно значимые масштабы, что приводит к превосходству над традиционными методами диффузии.

Кроме того, она поддерживает различные разрешения и соотношения сторон благодаря адаптируемым позиционным кодировкам.

Самые крупные модели, содержащие до 8 миллиардов параметров, превосходят таких известных конкурентов, как SDXL и DALL-E 3, как в автоматических оценках, так и в оценках человеческих предпочтений.

Более подробную информацию об архитектуре SD3 Medium можно найти в техническом документе здесь.

Демо-версия HuggingFace пока недоступна, но вы можете попробовать ее в Stability AI's Stable Assistant. Правда, это не бесплатно. Вот информация о ценах:

Также вы можете скачать модели и запустить их на локальном компьютере с помощью рабочих процессов ComfyUI и StableSwarmUI.

ComfyUI: https://github.com/comfyanonymous/ComfyUI
StableSwarmUI: https://github.com/Stability-AI/StableSwarmUI.

Размер моделей варьируется от 4 ГБ до 11 ГБ.

Если вам интересно пошаговое руководство по установке SD3 Medium, напишите об этом в комментариях.

Вот несколько примеров изображений:

Промпт: an old rusted robot wearing pants and a jacket riding skis in a supermarket.

A crab made of cheese on a plate

Dystopia of thousand of workers picking cherries and feeding them into a machine that runs on steam and is as large as a skyscraper. Written on the side of the machine: ”SD3 Paper”

Перед тем, как вы соберетесь использовать SD3 в коммерческих целях, обратите внимание, что весовые коэффициенты и код SD3 Medium будут доступны только для некоммерческого использования.

Если вы хотите договориться о лицензии на коммерческое использование Stable Diffusion 3 Medium, свяжитесь с Stability AI здесь.

Для крупных коммерческих пользователей и предприятий вы можете связаться с компанией Stability и получить корпоративную лицензию.

В целом, приятно видеть, что Stability AI выпустила модель SD3 бесплатно, несмотря на недавние внутренние неурядицы, с которыми столкнулась компания.

Первые примеры изображений, которые выпустила Stability AI, выглядят очень хорошо и почти сравнимы с Imagen 3 от Google и MidJourney V6. Рендеринг текста, в частности, является одной из самых сложных функций в ИИ-генераторах изображений.

Интересно, что Stability AI не стала выпускать модели 2B и 8B в один день. По словам одного из сотрудников Stability AI, модель 8B нуждается в дополнительной подготовке.

[Модель SD3 8B] требует еще много времени на обучение - текущий релиз 2B выглядит лучше, чем 8B Beta на начальном API в некоторых прямых сравнениях, что означает, что 8B нужно еще много обучать, чтобы она действительно стала намного лучше.

Будет интересно посмотреть, насколько хорошо проявит себя большая модель в сравнении с меньшей, и как результаты сравнятся с MidJourney и Dall-E 3.

#stablediffusion #sd3

Источник статьи на английском - здесь.