Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

После нескольких дней ожидания генеральный директор Stability AI Эмад наконец представил SDXL Turbo - модель искусственного интеллекта, способную генерировать изображения из простых текстовых описаний.

Как следует из названия, ее основной задачей является скорость, поскольку она способна генерировать изображения в режиме реального времени. Скорость - хорошо. А что с качеством?

Спонсор статьи - 👨‍💻 Разработка Телеграм-ботов любой сложности (от 5000₽)

SDXL Turbo создана на основе модели SDXL компании Stability AI, которая уже является одной из самых мощных моделей генерации изображений.

Она достигает высокой производительности благодаря новой технологии, позволяющей создавать изображения в один шаг с беспрецедентным качеством, сокращая количество необходимых шагов с 50 до одного.

Одним словом, SDXL-Turbo - это усовершенствованная версия SDXL 1.0, обученная генерации в режиме реального времени.

Технические детали работы SDXL Turbo довольно сложны, но, по сути, он использует новую технику дистилляции под названием Adversarial Diffusion Distillation (ADD), которая позволяет модели синтезировать высококачественные изображения за один шаг, значительно сокращая время вычислений по сравнению с традиционными диффузионными моделями.

На графическом процессоре A100 SDXL Turbo генерирует изображение размером 512x512 за 207 миллисекунд. Это невероятно быстро по сравнению с другими моделями генерации изображений.

ADD-студент обучается как денойзер, который получает диффузные входные изображения xs и выдает образцы xˆθ(xs, s) и оптимизирует две цели: а) состязательный проигрыш: модель стремится обмануть дискриминатор, который обучен отличать сгенерированные образцы xˆθ от реальных изображений x0. б) дистилляционный проигрыш: модель обучается соответствовать денойзеру xˆψ замороженного DM-учителя.

Если вы хотите узнать подробности о том, как работает ADD, ознакомьтесь с этой статьей.

Чтобы определить, насколько SDXL Turbo превосходит другие модели диффузии, компания Stability AI привлекла людей для оценки качества изображений, сгенерированных каждой моделью.

Они использовали два фактора для оценки изображений: насколько точно сгенерированное изображение соответствовало заданному промпту и общее качество изображения.

В целом эти эксперименты демонстрируют возможности SDXL Turbo как мощной и универсальной диффузионной модели, пригодной для решения широкого круга задач, особенно тех, которые требуют высокой точности промпта и качества изображения.
Такое сочетание скорости и качества является беспрецедентным. Конечно, еще предстоит выяснить, как ее возможности проявят себя при тщательном тестировании в реальных условиях в различных сценариях использования, но первые результаты выглядят весьма многообещающе.

Вот несколько примеров изображений, опубликованных Stability AI в своем пресс-релизе.

Ниже приведены изображения, которые я создал сам с помощью ClipDrop.

Представленные примеры изображений демонстрируют впечатляющую точность промпта при передаче сложных деталей и убедительных текстур - особенно те, что предоставлены компанией.

Тем не менее, когда я попробовал сам, были заметны некоторые недостатки, что говорит о том, что еще есть куда стремиться. Но, повторюсь, ключевым моментом здесь является молниеносная скорость при сохранении отличного качества.

Существует несколько способов попробовать SDXL Turbo, поскольку это программа с открытым исходным кодом.

ClipDrop
Запустить локально с помощью ComfyUI (веса и модели здесь).

Если вы хотите быстро опробовать его, я рекомендую зайти в ClipDrop, выбрать инструмент Stable Diffusion XL Turbo и начать вводить промпт.

Несмотря на то что SDXL Turbo представляет собой значительный шаг вперед в создании изображений ИИ в реальном времени, есть некоторые ограничения и недостатки.

В настоящее время SDXL Turbo выдает изображения с разрешением 512×512 пикселей.
Несмотря на то, что сгенерированные изображения часто впечатляют, они могут содержать незначительные артефакты или недостатки.
SDXL Turbo, как и многие другие диффузионные модели, плохо генерирует надписи.
Компонент автокодирования SDXL Turbo работает с потерями, то есть часть информации теряется в процессе кодирования и декодирования изображений.

К сожалению, нет.

Stability.ai поделилась кодом и моделью SDXL Turbo на HuggingFace и GitHub. Однако есть ограничения - сейчас его можно использовать только в некоммерческих целях. Поэтому исследователи и любители могут свободно экспериментировать с ней, но компании не могут использовать ее для продажи товаров или услуг.

В целом, я впечатлен его производительностью. А вот качество снимков совсем не впечатляет. Опять же, ключевым моментом здесь является молниеносная скорость при сохранении приемлемого качества.
Еще пару месяцев назад создание изображений с помощью искусственного интеллекта в режиме реального времени казалось далекой мечтой. Теперь же такие модели, как SDXL Turbo, делают ее практической реальностью. Посмотрим, какие творческие возможности откроет SDXL Turbo.

А вы используете Stable Diffusion?

Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.

#stablediffusion #sd #ai #ии

Оригинал статьи на английском - здесь.

Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

Что такое SDXL Turbo?

Как работает SDXL Turbo?

Сравнение результатов с другими диффузионными моделями

Примеры изображений

Как попробовать SDXL Turbo

Ограничения SDXL Turbo

Можно ли использовать изображения в коммерческих целях?