«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях

А ещё учитывать больше деталей из текстового запроса и придерживаться нескольких стилей.

  • «Яндекс» представил новое поколение визуальной нейросети — YandexART 2.0. Теперь модель умеет создавать надписи на изображениях, придерживаться нескольких стилей на одной картинке, «естественнее» располагать объекты в пространстве и относительно друг друга и учитывать больше деталей из промта.
Источник здесь и далее: «Яндекс»
Источник здесь и далее: «Яндекс»
  • В основе YandexART 2.0 — новая гибридная архитектура модели, которая сочетает качество работы свёрточной и трансформерной нейросетей. Свёрточная модель выявляет на картинке важные признаки — края, текстуры и формы, но не умеет учитывать длинный контекст. За это отвечает трансформерная.
  • Разработчики обучали YandexART на «сотнях миллионов» пар картинок и текстовых описаний к ним. Для повышения качества текстов компания использовала собственную VLM-модель: она анализировала изображения и детально описывала, что на них находится. YandexART 2.0 обучили уже на улучшенных данных.
  • Чтобы нейросеть научилась создавать на изображениях надписи латинскими буквами, «Яндекс» расширил обучающий датасет YandexART 2.0 «несколькими сотнями тысяч» изображений с текстом.
  • Пользователи могут протестировать обновлённую YandexART в чате с ассистентом «Алисой» при подключённой опции «Про». Промты можно уточнять в режиме диалога. Пользователи «Алисы Про» могут безлимитно создавать изображения в мобильной и десктопной версии в разных форматах.
  • Для бизнеса YandexART 2.0 доступна на платформе Yandex Cloud, её можно использовать через API. Также с помощью новой версии пользователи уже могут создавать рекламные объявления в «Яндекс Директе».

Сравнение работы YandexART 1.3 и 2.0

«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях
«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях
«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях
3030
42 комментария

У меня дома Алиса не может мне сказать продолжительность трека, который сейчас играет

4
Ответить

Это квантовые технологии не доступные человечеству

12
5
Ответить

Она может, просто товарищ майор еще не успел прослушать ваш трек.

5
Ответить

У меня на "Алиса, какая длина трека" произносит название и длину. На "Алиса, какая длина трека который сейчас играет" произносит длину. Про версия.

4
Ответить

Все правильно делает, музыкой надо наслаждаться. Просто ты не дорос до уровня ии)

Ответить

спиздили Flux ?

5
Ответить

Пишут, что моделька частично выигрывает в сравнениях с Flux в 55-63% случаев. Сильное заявление, но потыкав в результаты генерации вроде действительно похоже на правду. Теперь дело только за возможностями для редактирования, чтобы получился нормальный инструмент.

3
Ответить