«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях
А ещё учитывать больше деталей из текстового запроса и придерживаться нескольких стилей.
- «Яндекс» представил новое поколение визуальной нейросети — YandexART 2.0. Теперь модель умеет создавать надписи на изображениях, придерживаться нескольких стилей на одной картинке, «естественнее» располагать объекты в пространстве и относительно друг друга и учитывать больше деталей из промта.
- В основе YandexART 2.0 — новая гибридная архитектура модели, которая сочетает качество работы свёрточной и трансформерной нейросетей. Свёрточная модель выявляет на картинке важные признаки — края, текстуры и формы, но не умеет учитывать длинный контекст. За это отвечает трансформерная.
- Разработчики обучали YandexART на «сотнях миллионов» пар картинок и текстовых описаний к ним. Для повышения качества текстов компания использовала собственную VLM-модель: она анализировала изображения и детально описывала, что на них находится. YandexART 2.0 обучили уже на улучшенных данных.
- Чтобы нейросеть научилась создавать на изображениях надписи латинскими буквами, «Яндекс» расширил обучающий датасет YandexART 2.0 «несколькими сотнями тысяч» изображений с текстом.
- Пользователи могут протестировать обновлённую YandexART в чате с ассистентом «Алисой» при подключённой опции «Про». Промты можно уточнять в режиме диалога. Пользователи «Алисы Про» могут безлимитно создавать изображения в мобильной и десктопной версии в разных форматах.
- Для бизнеса YandexART 2.0 доступна на платформе Yandex Cloud, её можно использовать через API. Также с помощью новой версии пользователи уже могут создавать рекламные объявления в «Яндекс Директе».
Сравнение работы YandexART 1.3 и 2.0
Модель Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с помощью естественного языка. В отличие от более ранних мультимодальных систем, в которых использовалось сочетание отдельных моделей (например, использование языковой модели вместе с Imagen 3 для генерации изображений), Gemini 2.0 Flash работает в мультимодальном режиме,…
Пока индустрия ИИ замерла в ожидании Midjourney V7, Google выпустил Imagen 3, и это может полностью изменить расстановку сил на рынке генерации изображений. В этой статье — детальное сравнение трех главных игроков рынка, анализ их возможностей и практические рекомендации по использованию каждого инструмента. Вы узнаете, почему Google может стать но…
Рассказываем на примере Яндекс 360.
Начнём с самой генерации. Честно говоря, раньше я почти не использовала ChatGPT для создания AI-фото — качество у DALL·E 3 было довольно посредственным, а соотношение сторон всё время застревало на 1:1. Но с недавним обновлением GPT-4o всё кардинально изменилось: качество стало значительно выше, и теперь можно настраивать формат изображения.
Или как создать сайт, который привлекает клиентов, а не проблемы.
Искусственный интеллект и его производные, такие как нейронные сети, стали неотъемлемой частью повседневной жизни людей, занимающихся рисованием, фотографией, дизайном и написанием текстов. Каждый день появляются новые поклонники нейросетей, однако многие желающие научиться взаимодействовать с искусственным интеллектом сталкиваются с трудностями. В…
Google представил обновленную версию Gemini 2.0 Flash с новыми возможностями редактирования изображений. Теперь пользователи могут изменять картинки, просто описывая желаемые изменения обычными словами.
В Google AI Studio появилась новая функция — генерация и редактирование изображений с помощью Gemini 2.0 Flash. Теперь вы можете не только раскрасить черно-белые фото, но и вносить любые визуальные изменения: добавлять объекты, менять освещение, фон или даже стилистику изображения — и всё это по простой текстовой инструкции.
У меня дома Алиса не может мне сказать продолжительность трека, который сейчас играет
Это квантовые технологии не доступные человечеству
Она может, просто товарищ майор еще не успел прослушать ваш трек.
спиздили Flux ?
Пишут, что моделька частично выигрывает в сравнениях с Flux в 55-63% случаев. Сильное заявление, но потыкав в результаты генерации вроде действительно похоже на правду. Теперь дело только за возможностями для редактирования, чтобы получился нормальный инструмент.