10.10.2024

«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях

А ещё учитывать больше деталей из текстового запроса и придерживаться нескольких стилей.

«Яндекс» представил новое поколение визуальной нейросети — YandexART 2.0. Теперь модель умеет создавать надписи на изображениях, придерживаться нескольких стилей на одной картинке, «естественнее» располагать объекты в пространстве и относительно друг друга и учитывать больше деталей из промта.

В основе YandexART 2.0 — новая гибридная архитектура модели, которая сочетает качество работы свёрточной и трансформерной нейросетей. Свёрточная модель выявляет на картинке важные признаки — края, текстуры и формы, но не умеет учитывать длинный контекст. За это отвечает трансформерная.
Разработчики обучали YandexART на «сотнях миллионов» пар картинок и текстовых описаний к ним. Для повышения качества текстов компания использовала собственную VLM-модель: она анализировала изображения и детально описывала, что на них находится. YandexART 2.0 обучили уже на улучшенных данных.

«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях

Чтобы нейросеть научилась создавать на изображениях надписи латинскими буквами, «Яндекс» расширил обучающий датасет YandexART 2.0 «несколькими сотнями тысяч» изображений с текстом.
Пользователи могут протестировать обновлённую YandexART в чате с ассистентом «Алисой» при подключённой опции «Про». Промты можно уточнять в режиме диалога. Пользователи «Алисы Про» могут безлимитно создавать изображения в мобильной и десктопной версии в разных форматах.
Для бизнеса YandexART 2.0 доступна на платформе Yandex Cloud, её можно использовать через API. Также с помощью новой версии пользователи уже могут создавать рекламные объявления в «Яндекс Директе».

#новости #яндекс #yandexart

3131

40 комментариев

У меня дома Алиса не может мне сказать продолжительность трека, который сейчас играет

Ответить

Илай Макс

10.10.2024

Это квантовые технологии не доступные человечеству

Ответить

Mari

10.10.2024

Она может, просто товарищ майор еще не успел прослушать ваш трек.

спиздили Flux ?

Драка вегетарианца с людоедом

10.10.2024

Пишут, что моделька частично выигрывает в сравнениях с Flux в 55-63% случаев. Сильное заявление, но потыкав в результаты генерации вроде действительно похоже на правду. Теперь дело только за возможностями для редактирования, чтобы получился нормальный инструмент.

Ответить

Раскрывать всегда

NeuroЭнтузиаст (Алексей)

15 мар

Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка

Модель Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с помощью естественного языка. В отличие от более ранних мультимодальных систем, в которых использовалось сочетание отдельных моделей (например, использование языковой модели вместе с Imagen 3 для генерации изображений), Gemini 2.0 Flash работает в мультимодальном режиме,…

2020

Роман Шарафутдинов

Midjourney

20 февр

Битва титанов. Imagen 3 против Midjourney 6.1 и Qwen 2.5 MAX. Кто станет НОВЫМ ЛИДЕРОМ в генерации изображений?

Пока индустрия ИИ замерла в ожидании Midjourney V7, Google выпустил Imagen 3, и это может полностью изменить расстановку сил на рынке генерации изображений. В этой статье — детальное сравнение трех главных игроков рынка, анализ их возможностей и практические рекомендации по использованию каждого инструмента. Вы узнаете, почему Google может стать но…

Т-Банк

12:10

От арт-банкоматов до обмена валюты: почему банкоматы Т-Банка не такие, как все

Как сделать единую айдентику сразу для нескольких сервисов и не потерять узнаваемость

Рассказываем на примере Яндекс 360.

Людмила Гроздева

вчера

OpenAI снова взрывает рынок: GPT-4o теперь генерит картинки, делает баннеры, вставляет текст на фото

Начнём с самой генерации. Честно говоря, раньше я почти не использовала ChatGPT для создания AI-фото — качество у DALL·E 3 было довольно посредственным, а соотношение сторон всё время застревало на 1:1. Но с недавним обновлением GPT-4o всё кардинально изменилось: качество стало значительно выше, и теперь можно настраивать формат изображения.

Артем Первухин

6 февр

Тренды Яндекс.Директ на 2025 год: Smart Design, автоматизация кампаний и новые рекламные площадки

2 фатальные ошибки при заказе сайта, которые я не рекомендовал бы допускать

Или как создать сайт, который привлекает клиентов, а не проблемы.

Нейросети For Fun

24 мар

Бесплатные нейросети — учимся пользоваться

Искусственный интеллект и его производные, такие как нейронные сети, стали неотъемлемой частью повседневной жизни людей, занимающихся рисованием, фотографией, дизайном и написанием текстов. Каждый день появляются новые поклонники нейросетей, однако многие желающие научиться взаимодействовать с искусственным интеллектом сталкиваются с трудностями. В…

NeuroЭнтузиаст (Алексей)

21 мар

Как получить доступ в России и редактировать изображения в Gemini 2.0 Flash от Google прямо в Телеграм

Google представил обновленную версию Gemini 2.0 Flash с новыми возможностями редактирования изображений. Теперь пользователи могут изменять картинки, просто описывая желаемые изменения обычными словами.

Как использовать Gemini 2.0 Flash для редактирования изображений с помощью текста

В Google AI Studio появилась новая функция — генерация и редактирование изображений с помощью Gemini 2.0 Flash. Теперь вы можете не только раскрасить черно-белые фото, но и вносить любые визуальные изменения: добавлять объекты, менять освещение, фон или даже стилистику изображения — и всё это по простой текстовой инструкции.