Google представила модель для генерации видео Gemini Omni Flash — первую из мультимодальной линейки Omni
Она доступна по подписке.
Здесь и далее источник: Google
- Глава DeepMind Демис Хассабис представил Gemini Omni на Google I/O 2026. Это мультимодальная нейросеть, которая объединит генерацию видео, изображений, аудио, текста и «приблизит» исследователей к созданию ИИ общего назначения (AGI).
- Первая модель линейки — Gemini Omni Flash. Она генерирует видео со звуком из «любых» входных данных: изображений, схем, аудио и роликов.
- По словам компании, Omni Flash лучше предыдущих версий понимает физику, использует знания о реальном мире и «логику» Gemini 3.5.
- Также доступен режим редактирования с помощью текстовых команд. Можно корректировать генерации с сохранением деталей. Реальные видео тоже можно преобразовать: добавить спецэффекты, поменять антураж или стиль, при этом модель сохранит неизменными лица людей.
- Компания также тестирует функцию создания аватаров по исходным фотографиям и записям голоса. Можно один раз загрузить данные и потом генерировать видео только по текстовому описанию.
Источник: X
У некоторых ранний доступ к Omni появился в приложении Flow в середине мая 2026 года. Вот несколько тестов из соцсетей:
Источник: X
Источник: X
Источник: X
- Gemini Omni Flash доступна пользователям планов Google AI Plus, Pro и Ultra в мобильном приложении и веб-версии Gemini, а также в сервисе для генерации видео Flow.
- Бесплатный доступ дали авторам в YouTube Shorts и приложении YouTube Create. В ближайшие недели её добавят в API и сервисы для разработчиков.
18 комментариев