{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Neuromarket (Алексей)

29 ноя 2023 29.11.2023

Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

После нескольких дней ожидания генеральный директор Stability AI Эмад наконец представил SDXL Turbo - модель искусственного интеллекта, способную генерировать изображения из простых текстовых описаний.

Как следует из названия, ее основной задачей является скорость, поскольку она способна генерировать изображения в режиме реального времени. Скорость - хорошо. А что с качеством?

Спонсор статьи - 👨‍💻 Разработка Телеграм-ботов любой сложности (от 5000₽)

Что такое SDXL Turbo?

SDXL Turbo создана на основе модели SDXL компании Stability AI, которая уже является одной из самых мощных моделей генерации изображений.

Она достигает высокой производительности благодаря новой технологии, позволяющей создавать изображения в один шаг с беспрецедентным качеством, сокращая количество необходимых шагов с 50 до одного.

Одним словом, SDXL-Turbo - это усовершенствованная версия SDXL 1.0, обученная генерации в режиме реального времени.

Как работает SDXL Turbo?

Технические детали работы SDXL Turbo довольно сложны, но, по сути, он использует новую технику дистилляции под названием Adversarial Diffusion Distillation (ADD), которая позволяет модели синтезировать высококачественные изображения за один шаг, значительно сокращая время вычислений по сравнению с традиционными диффузионными моделями.

На графическом процессоре A100 SDXL Turbo генерирует изображение размером 512x512 за 207 миллисекунд. Это невероятно быстро по сравнению с другими моделями генерации изображений.

ADD-студент обучается как денойзер, который получает диффузные входные изображения xs и выдает образцы xˆθ(xs, s) и оптимизирует две цели: а) состязательный проигрыш: модель стремится обмануть дискриминатор, который обучен отличать сгенерированные образцы xˆθ от реальных изображений x0. б) дистилляционный проигрыш: модель обучается соответствовать денойзеру xˆψ замороженного DM-учителя.

Если вы хотите узнать подробности о том, как работает ADD, ознакомьтесь с этой статьей.

Сравнение результатов с другими диффузионными моделями

Чтобы определить, насколько SDXL Turbo превосходит другие модели диффузии, компания Stability AI привлекла людей для оценки качества изображений, сгенерированных каждой моделью.

Они использовали два фактора для оценки изображений: насколько точно сгенерированное изображение соответствовало заданному промпту и общее качество изображения.

В целом эти эксперименты демонстрируют возможности SDXL Turbo как мощной и универсальной диффузионной модели, пригодной для решения широкого круга задач, особенно тех, которые требуют высокой точности промпта и качества изображения.
Такое сочетание скорости и качества является беспрецедентным. Конечно, еще предстоит выяснить, как ее возможности проявят себя при тщательном тестировании в реальных условиях в различных сценариях использования, но первые результаты выглядят весьма многообещающе.

Примеры изображений

Вот несколько примеров изображений, опубликованных Stability AI в своем пресс-релизе.

Ниже приведены изображения, которые я создал сам с помощью ClipDrop.

Представленные примеры изображений демонстрируют впечатляющую точность промпта при передаче сложных деталей и убедительных текстур - особенно те, что предоставлены компанией.

Тем не менее, когда я попробовал сам, были заметны некоторые недостатки, что говорит о том, что еще есть куда стремиться. Но, повторюсь, ключевым моментом здесь является молниеносная скорость при сохранении отличного качества.

Как попробовать SDXL Turbo

Существует несколько способов попробовать SDXL Turbo, поскольку это программа с открытым исходным кодом.

ClipDrop
Запустить локально с помощью ComfyUI (веса и модели здесь).

Если вы хотите быстро опробовать его, я рекомендую зайти в ClipDrop, выбрать инструмент Stable Diffusion XL Turbo и начать вводить промпт.

Ограничения SDXL Turbo

Несмотря на то что SDXL Turbo представляет собой значительный шаг вперед в создании изображений ИИ в реальном времени, есть некоторые ограничения и недостатки.

В настоящее время SDXL Turbo выдает изображения с разрешением 512×512 пикселей.
Несмотря на то, что сгенерированные изображения часто впечатляют, они могут содержать незначительные артефакты или недостатки.
SDXL Turbo, как и многие другие диффузионные модели, плохо генерирует надписи.
Компонент автокодирования SDXL Turbo работает с потерями, то есть часть информации теряется в процессе кодирования и декодирования изображений.

Можно ли использовать изображения в коммерческих целях?

К сожалению, нет.

Stability.ai поделилась кодом и моделью SDXL Turbo на HuggingFace и GitHub. Однако есть ограничения - сейчас его можно использовать только в некоммерческих целях. Поэтому исследователи и любители могут свободно экспериментировать с ней, но компании не могут использовать ее для продажи товаров или услуг.

В целом, я впечатлен его производительностью. А вот качество снимков совсем не впечатляет. Опять же, ключевым моментом здесь является молниеносная скорость при сохранении приемлемого качества.
Еще пару месяцев назад создание изображений с помощью искусственного интеллекта в режиме реального времени казалось далекой мечтой. Теперь же такие модели, как SDXL Turbo, делают ее практической реальностью. Посмотрим, какие творческие возможности откроет SDXL Turbo.

А вы используете Stable Diffusion?

Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.

#stablediffusion #sd #ai #ии

Оригинал статьи на английском - здесь.

11K показов

3K открытий

17 комментариев

Написать комментарий...

Alex Z

29.11.2023

С удовольствием поаплодировал бы сгенерированной фотореалистичной картинке, на которой будут 5 человек разных национальностей, стоящих лицом )) Мишки-зайки-космонавты - это, конечно, хорошо…

Ответить

Развернуть ветку

Neuromarket (Алексей)

29.11.2023 Автор

Я бы тоже. Но пока в SD изображения часто получаются мультяшно-искусственными. А для фотореалистичности нужно много танцев с бубном.

Ответить

Развернуть ветку

Alex Z

29.11.2023

Да даже не в скоростном, хоть в SD, хоть в MJ, несколько человек лицом до сих пор адова проблема. В ЛУЧШЕМ случае - одновозрастные близнецы 😭😭😭

Ответить

Развернуть ветку

Neuromarket (Алексей)

29.11.2023 Автор

Вы имеете в виду от 3-х и более человек?

Ответить

Развернуть ветку

Alex Z

29.11.2023

Ага. Бизнес-графика а ля стоки, для баннеров. Таких уродов насмотрелся, до сих пор снятся… упаси Боже меня ещё что-то типа busy crowded open space office запрашивать, там и экзорцист не справится 🤦‍♂️

Ответить

Развернуть ветку

Neuromarket (Алексей)

29.11.2023 Автор

Это да, пока ужасы ужасные генерятся в основном ). Зато для фильмов ужасов можно генерить - офис уродов ).

Ответить

Развернуть ветку

Vasiliy

30.11.2023

Ответить

Развернуть ветку

Александр Соколов

29.11.2023

SD и так не всегда фотореалистично генерирует, а с моментальной генерацией вообще все плачевно

Ответить

Развернуть ветку

Валерий Погодин

29.11.2023

Аплодирую стоя разработчикам ИИ. Как же это упростит жизнь!

Ответить

Развернуть ветку

Neuromarket (Алексей)

29.11.2023 Автор

Время покажет ).

Ответить

Развернуть ветку

Валерий Погодин

29.11.2023

Да время уже показывает и очень серьезные результаты

Ответить

Развернуть ветку

Neuromarket (Алексей)

29.11.2023 Автор

Согласен, развиваются нейронки быстро, и уже заменили некоторых специалистов.

Ответить

Развернуть ветку

Neuromarket (Алексей)

29.11.2023 Автор

Но, кстати, не все нейронки показывают серьезные результаты. Много посредственных.

Ответить

Развернуть ветку

Максим Яценко

29.11.2023

Прям огонь. Отлично коряво. Лучше и не надо для презентации.

Ответить

Развернуть ветку

Neuromarket (Алексей)

29.11.2023 Автор

Скорость пока не равно качество ).

Ответить

Развернуть ветку

Александр Соколов

29.11.2023

Если сравнивать с миджорни, то генерирует коряво совсем. Здесь не только для коммерческого использования не подойдут, но даже для аватарки не подойдут

Ответить

Развернуть ветку

Neuromarket (Алексей)

29.11.2023 Автор

Думаю, это только начало, и со временем допилят.

Ответить

Развернуть ветку

Написать комментарий...

14 комментариев

Раскрывать всегда