{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

После нескольких дней ожидания генеральный директор Stability AI Эмад наконец представил SDXL Turbo - модель искусственного интеллекта, способную генерировать изображения из простых текстовых описаний.

Как следует из названия, ее основной задачей является скорость, поскольку она способна генерировать изображения в режиме реального времени. Скорость - хорошо. А что с качеством?

Спонсор статьи - 👨‍💻 Разработка Телеграм-ботов любой сложности (от 5000₽)

Что такое SDXL Turbo?

SDXL Turbo создана на основе модели SDXL компании Stability AI, которая уже является одной из самых мощных моделей генерации изображений.

Она достигает высокой производительности благодаря новой технологии, позволяющей создавать изображения в один шаг с беспрецедентным качеством, сокращая количество необходимых шагов с 50 до одного.

Одним словом, SDXL-Turbo - это усовершенствованная версия SDXL 1.0, обученная генерации в режиме реального времени.

Как работает SDXL Turbo?

Технические детали работы SDXL Turbo довольно сложны, но, по сути, он использует новую технику дистилляции под названием Adversarial Diffusion Distillation (ADD), которая позволяет модели синтезировать высококачественные изображения за один шаг, значительно сокращая время вычислений по сравнению с традиционными диффузионными моделями.

На графическом процессоре A100 SDXL Turbo генерирует изображение размером 512x512 за 207 миллисекунд. Это невероятно быстро по сравнению с другими моделями генерации изображений.

ADD-студент обучается как денойзер, который получает диффузные входные изображения xs и выдает образцы xˆθ(xs, s) и оптимизирует две цели: а) состязательный проигрыш: модель стремится обмануть дискриминатор, который обучен отличать сгенерированные образцы xˆθ от реальных изображений x0. б) дистилляционный проигрыш: модель обучается соответствовать денойзеру xˆψ замороженного DM-учителя.

Если вы хотите узнать подробности о том, как работает ADD, ознакомьтесь с этой статьей.

Сравнение результатов с другими диффузионными моделями

Чтобы определить, насколько SDXL Turbo превосходит другие модели диффузии, компания Stability AI привлекла людей для оценки качества изображений, сгенерированных каждой моделью.

Они использовали два фактора для оценки изображений: насколько точно сгенерированное изображение соответствовало заданному промпту и общее качество изображения.

В целом эти эксперименты демонстрируют возможности SDXL Turbo как мощной и универсальной диффузионной модели, пригодной для решения широкого круга задач, особенно тех, которые требуют высокой точности промпта и качества изображения.
Такое сочетание скорости и качества является беспрецедентным. Конечно, еще предстоит выяснить, как ее возможности проявят себя при тщательном тестировании в реальных условиях в различных сценариях использования, но первые результаты выглядят весьма многообещающе.

Примеры изображений

Вот несколько примеров изображений, опубликованных Stability AI в своем пресс-релизе.

Ниже приведены изображения, которые я создал сам с помощью ClipDrop.

Представленные примеры изображений демонстрируют впечатляющую точность промпта при передаче сложных деталей и убедительных текстур - особенно те, что предоставлены компанией.

Тем не менее, когда я попробовал сам, были заметны некоторые недостатки, что говорит о том, что еще есть куда стремиться. Но, повторюсь, ключевым моментом здесь является молниеносная скорость при сохранении отличного качества.

Как попробовать SDXL Turbo

Существует несколько способов попробовать SDXL Turbo, поскольку это программа с открытым исходным кодом.

Если вы хотите быстро опробовать его, я рекомендую зайти в ClipDrop, выбрать инструмент Stable Diffusion XL Turbo и начать вводить промпт.

Ограничения SDXL Turbo

Несмотря на то что SDXL Turbo представляет собой значительный шаг вперед в создании изображений ИИ в реальном времени, есть некоторые ограничения и недостатки.

  • В настоящее время SDXL Turbo выдает изображения с разрешением 512×512 пикселей.
  • Несмотря на то, что сгенерированные изображения часто впечатляют, они могут содержать незначительные артефакты или недостатки.
  • SDXL Turbo, как и многие другие диффузионные модели, плохо генерирует надписи.
  • Компонент автокодирования SDXL Turbo работает с потерями, то есть часть информации теряется в процессе кодирования и декодирования изображений.

Можно ли использовать изображения в коммерческих целях?

К сожалению, нет.

Stability.ai поделилась кодом и моделью SDXL Turbo на HuggingFace и GitHub. Однако есть ограничения - сейчас его можно использовать только в некоммерческих целях. Поэтому исследователи и любители могут свободно экспериментировать с ней, но компании не могут использовать ее для продажи товаров или услуг.

В целом, я впечатлен его производительностью. А вот качество снимков совсем не впечатляет. Опять же, ключевым моментом здесь является молниеносная скорость при сохранении приемлемого качества.
Еще пару месяцев назад создание изображений с помощью искусственного интеллекта в режиме реального времени казалось далекой мечтой. Теперь же такие модели, как SDXL Turbo, делают ее практической реальностью. Посмотрим, какие творческие возможности откроет SDXL Turbo.

А вы используете Stable Diffusion?

Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.

Оригинал статьи на английском - здесь.

0
17 комментариев
Написать комментарий...
Alex Z

С удовольствием поаплодировал бы сгенерированной фотореалистичной картинке, на которой будут 5 человек разных национальностей, стоящих лицом )) Мишки-зайки-космонавты - это, конечно, хорошо…

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Я бы тоже. Но пока в SD изображения часто получаются мультяшно-искусственными. А для фотореалистичности нужно много танцев с бубном.

Ответить
Развернуть ветку
Alex Z

Да даже не в скоростном, хоть в SD, хоть в MJ, несколько человек лицом до сих пор адова проблема. В ЛУЧШЕМ случае - одновозрастные близнецы 😭😭😭

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Вы имеете в виду от 3-х и более человек?

Ответить
Развернуть ветку
Alex Z

Ага. Бизнес-графика а ля стоки, для баннеров. Таких уродов насмотрелся, до сих пор снятся… упаси Боже меня ещё что-то типа busy crowded open space office запрашивать, там и экзорцист не справится 🤦‍♂️

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Это да, пока ужасы ужасные генерятся в основном ). Зато для фильмов ужасов можно генерить - офис уродов ).

Ответить
Развернуть ветку
Vasiliy
Ответить
Развернуть ветку
Александр Соколов

SD и так не всегда фотореалистично генерирует, а с моментальной генерацией вообще все плачевно

Ответить
Развернуть ветку
Валерий Погодин

Аплодирую стоя разработчикам ИИ. Как же это упростит жизнь!

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Время покажет ).

Ответить
Развернуть ветку
Валерий Погодин

Да время уже показывает и очень серьезные результаты

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Согласен, развиваются нейронки быстро, и уже заменили некоторых специалистов.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Но, кстати, не все нейронки показывают серьезные результаты. Много посредственных.

Ответить
Развернуть ветку
Максим Яценко

Прям огонь. Отлично коряво. Лучше и не надо для презентации.

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Скорость пока не равно качество ).

Ответить
Развернуть ветку
Александр Соколов

Если сравнивать с миджорни, то генерирует коряво совсем. Здесь не только для коммерческого использования не подойдут, но даже для аватарки не подойдут

Ответить
Развернуть ветку
Neuromarket (Алексей)
Автор

Думаю, это только начало, и со временем допилят.

Ответить
Развернуть ветку
14 комментариев
Раскрывать всегда