«Яндекс» представил обновлённую YandexART: нейросеть создаёт более реалистичные изображения в разных форматах

Новая версия уже доступна в «Шедевруме», позднее появится в других сервисах компании.

«Яндекс» представил диффузионную нейросеть YandexART 1.3: она перешла на новую технологию для генерации изображений — латентную диффузию, которая потребляет меньше вычислительных ресурсов и позволяет создавать более реалистичную графику.

Технология создаёт промежуточное представление картинки в виде латентного кода — компактного описания, содержащего основную информацию об изображении в сжатой форме, а затем разворачивает код в полноценное изображение высокого разрешения.
Разработчики добавили в датасет, на котором обучали модель, синтетические тексты — сгенерированные нейросетью подробные описания изображений. Сам набор данных увеличили до более чем 850 млн пар изображений с текстом.
Чтобы YandexART учитывала больше деталей из текстового запроса, в новой модели используются два текстовых энкодера вместо одного. С их помощью нейросеть распознаёт запрос и переводит его на машинный язык.

С обновлением нейросети пользователи смогут создавать картинки в разных форматах: например, 16:9, 4:3 или 3:4.

«Яндекс» представил нейросеть YandexART осенью 2023 года. Она создавала изображения и анимацию методом каскадной диффузии — сначала генерировала картинки и кадры по текстовому запросу, а затем поэтапно добавляла детали и увеличивала их разрешение.
YandexART интегрирована в «Шедеврум», используется в сервисах «Яндекс Бизнес», «Директ», «Браузер» и «Маркет». В апреле 2024 года Yandex Cloud открыла доступ к API нейросети.