Ручка в виде кредитки
Робот-скульптор
Huawei Pura X
Pixar напрягся
Будни офиса Miro
Бонобо Канзи
Рабочее место для кота

«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях

А ещё учитывать больше деталей из текстового запроса и придерживаться нескольких стилей.

  • «Яндекс» представил новое поколение визуальной нейросети — YandexART 2.0. Теперь модель умеет создавать надписи на изображениях, придерживаться нескольких стилей на одной картинке, «естественнее» располагать объекты в пространстве и относительно друг друга и учитывать больше деталей из промта.
Источник здесь и далее: «Яндекс»
Источник здесь и далее: «Яндекс»
  • В основе YandexART 2.0 — новая гибридная архитектура модели, которая сочетает качество работы свёрточной и трансформерной нейросетей. Свёрточная модель выявляет на картинке важные признаки — края, текстуры и формы, но не умеет учитывать длинный контекст. За это отвечает трансформерная.
  • Разработчики обучали YandexART на «сотнях миллионов» пар картинок и текстовых описаний к ним. Для повышения качества текстов компания использовала собственную VLM-модель: она анализировала изображения и детально описывала, что на них находится. YandexART 2.0 обучили уже на улучшенных данных.
  • Чтобы нейросеть научилась создавать на изображениях надписи латинскими буквами, «Яндекс» расширил обучающий датасет YandexART 2.0 «несколькими сотнями тысяч» изображений с текстом.
  • Пользователи могут протестировать обновлённую YandexART в чате с ассистентом «Алисой» при подключённой опции «Про». Промты можно уточнять в режиме диалога. Пользователи «Алисы Про» могут безлимитно создавать изображения в мобильной и десктопной версии в разных форматах.
  • Для бизнеса YandexART 2.0 доступна на платформе Yandex Cloud, её можно использовать через API. Также с помощью новой версии пользователи уже могут создавать рекламные объявления в «Яндекс Директе».

Сравнение работы YandexART 1.3 и 2.0

«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях
«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях
«Яндекс» представил обновлённую YandexART — нейросеть научилась генерировать текст на изображениях
3131
реклама
разместить
40 комментариев

У меня дома Алиса не может мне сказать продолжительность трека, который сейчас играет

4

Это квантовые технологии не доступные человечеству

12
5

Она может, просто товарищ майор еще не успел прослушать ваш трек.

5

спиздили Flux ?

5

Пишут, что моделька частично выигрывает в сравнениях с Flux в 55-63% случаев. Сильное заявление, но потыкав в результаты генерации вроде действительно похоже на правду. Теперь дело только за возможностями для редактирования, чтобы получился нормальный инструмент.

3
Раскрывать всегда
Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка
Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка

Модель Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с помощью естественного языка. В отличие от более ранних мультимодальных систем, в которых использовалось сочетание отдельных моделей (например, использование языковой модели вместе с Imagen 3 для генерации изображений), Gemini 2.0 Flash работает в мультимодальном режиме,…

2020
Битва титанов. Imagen 3 против Midjourney 6.1 и Qwen 2.5 MAX. Кто станет НОВЫМ ЛИДЕРОМ в генерации изображений?

Пока индустрия ИИ замерла в ожидании Midjourney V7, Google выпустил Imagen 3, и это может полностью изменить расстановку сил на рынке генерации изображений. В этой статье — детальное сравнение трех главных игроков рынка, анализ их возможностей и практические рекомендации по использованию каждого инструмента. Вы узнаете, почему Google может стать но…

77
От арт-банкоматов до обмена валюты: почему банкоматы Т-Банка не такие, как все
От арт-банкоматов до обмена валюты: почему банкоматы Т-Банка не такие, как все
22
Как сделать единую айдентику сразу для нескольких сервисов и не потерять узнаваемость

Рассказываем на примере Яндекс 360.

Как сделать единую айдентику сразу для нескольких сервисов и не потерять узнаваемость
66
OpenAI снова взрывает рынок: GPT-4o теперь генерит картинки, делает баннеры, вставляет текст на фото

Начнём с самой генерации. Честно говоря, раньше я почти не использовала ChatGPT для создания AI-фото — качество у DALL·E 3 было довольно посредственным, а соотношение сторон всё время застревало на 1:1. Но с недавним обновлением GPT-4o всё кардинально изменилось: качество стало значительно выше, и теперь можно настраивать формат изображения.

OpenAI снова взрывает рынок: GPT-4o теперь генерит картинки, делает баннеры, вставляет текст на фото
Тренды Яндекс.Директ на 2025 год: Smart Design, автоматизация кампаний и новые рекламные площадки
Тренды Яндекс.Директ на 2025 год: Smart Design, автоматизация кампаний и новые рекламные площадки
11
2 фатальные ошибки при заказе сайта, которые я не рекомендовал бы допускать

Или как создать сайт, который привлекает клиентов, а не проблемы.

2 фатальные ошибки при заказе сайта, которые я не рекомендовал бы допускать
Бесплатные нейросети — учимся пользоваться

Искусственный интеллект и его производные, такие как нейронные сети, стали неотъемлемой частью повседневной жизни людей, занимающихся рисованием, фотографией, дизайном и написанием текстов. Каждый день появляются новые поклонники нейросетей, однако многие желающие научиться взаимодействовать с искусственным интеллектом сталкиваются с трудностями. В…

11
Как получить доступ в России и редактировать изображения в Gemini 2.0 Flash от Google прямо в Телеграм
Как получить доступ в России и редактировать изображения в Gemini 2.0 Flash от Google прямо в Телеграм

Google представил обновленную версию Gemini 2.0 Flash с новыми возможностями редактирования изображений. Теперь пользователи могут изменять картинки, просто описывая желаемые изменения обычными словами.

22
реклама
разместить
Как использовать Gemini 2.0 Flash для редактирования изображений с помощью текста

В Google AI Studio появилась новая функция — генерация и редактирование изображений с помощью Gemini 2.0 Flash. Теперь вы можете не только раскрасить черно-белые фото, но и вносить любые визуальные изменения: добавлять объекты, менять освещение, фон или даже стилистику изображения — и всё это по простой текстовой инструкции.

11
~40 млн AI-картинок в день, 90 млн пользователей и $4 млрд в индустрии: кто и как зарабатывает на AI фото- и видеоконтенте?
Сгенерировано в Midjourney
55
11
11
🔥 Крутяк!!! GPT обновился!
[]