Google представила модель для генерации видео Gemini Omni Flash — первую из мультимодальной линейки Omni

Она доступна по подписке.

Здесь и далее источник: Google
  • Глава DeepMind Демис Хассабис представил Gemini Omni на Google I/O 2026. Это мультимодальная нейросеть, которая объединит генерацию видео, изображений, аудио, текста и «приблизит» исследователей к созданию ИИ общего назначения (AGI).
  • Первая модель линейки — Gemini Omni Flash. Она генерирует видео со звуком из «любых» входных данных: изображений, схем, аудио и роликов.
  • По словам компании, Omni Flash лучше предыдущих версий понимает физику, использует знания о реальном мире и «логику» Gemini 3.5.
  • Также доступен режим редактирования с помощью текстовых команд. Можно корректировать генерации с сохранением деталей. Реальные видео тоже можно преобразовать: добавить спецэффекты, поменять антураж или стиль, при этом модель сохранит неизменными лица людей.
  • Компания также тестирует функцию создания аватаров по исходным фотографиям и записям голоса. Можно один раз загрузить данные и потом генерировать видео только по текстовому описанию.
Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Ftestingcatalog%2Fstatus%2F2056765339552121098%3Fs%3D20&amp%3BpostId=2938232&postId=2938232" rel="nofollow noreferrer noopener" target="_blank">X</a>
Источник: X

У некоторых ранний доступ к Omni появился в приложении Flow в середине мая 2026 года. Вот несколько тестов из соцсетей:

Источник: X
Источник: X
Источник: X
  • Gemini Omni Flash доступна пользователям планов Google AI Plus, Pro и Ultra в мобильном приложении и веб-версии Gemini, а также в сервисе для генерации видео Flow.
  • Бесплатный доступ дали авторам в YouTube Shorts и приложении YouTube Create. В ближайшие недели её добавят в API и сервисы для разработчиков.
6
2
1
18 комментариев