Imagen Video: Google представила свой ИИ для создания HD-видеороликов из текстовых подсказок

Сегодня компания Google объявила о разработке Imagen Video - нейросети, способной создавать видео 1280×768 с частотой 24 кадра в секунду на основе письменной подсказки. В настоящее время проект находится на стадии исследования, но его появление через пять месяцев после появления Google Imagen указывает на быстрое развитие моделей генерации видео.

На сайте официального релиза Imagen Video можно посмотреть примеры представленные командой.

A teddy bear washing the dishes (Плюшевый мишка моет посуду)

Спустя всего шесть месяцев после запуска генератора текста в изображение DALLE-2 от OpenAI, прогресс в области моделей распространения ИИ стремительно набирает обороты. Анонс Imagen Video от Google произошел менее чем через неделю после того, как компания Meta представила свой инструмент ИИ для преобразования текста в видео - Make-A-Video.

Полет через напряженное сражение между пиратскими кораблями в океане во время шторма.

Imagen Video: Google представила свой ИИ для создания HD-видеороликов из текстовых подсказок

Ключом к возможностям Imagen Video является "каскад" из семи диффузионных моделей, которые преобразуют исходный текст. Например, "медведь моет посуду" в видео низкого разрешения (16 кадров, 24×48 пикселей, со скоростью 3 кадра в секунду), а затем с каждым шагом увеличивают его до все более высокого разрешения с более высокой частотой кадров. Длина конечного видео на выходе составляет 5,3 секунды.

Примеры видео, представленные на сайте Imagen Video, варьируются от обыденных "тающее мороженое стекает по рожку", до более фантастических "Полет во время напряженной битвы между пиратскими кораблями в бурном океане". Они содержат очевидные артефакты, но демонстрируют большую плавность и детализацию, чем более ранние модели преобразования текста в изображение, такие как например CogVideo, дебютировавшие пять месяцев назад.

По сравнению с моделью изображений Imagen, модель Video Imagen была расширена до временной области и обучена на изображениях и видео одновременно. По словам Google, сильные стороны модели изображений Imagen были сохранены. Для обработки текста Google использовал большую, предварительно обученную языковую модель Transformer T5-XXL, как и для модели изображений Imagen.

Как и в случае с Imagen (генеарация картинок) и другими генеративными разработками, Google пока не выпускает модель в открытый доступ. Причина объясняется тем же: поиск путей решения защиты от небезопасного контента (дискриминация, насилие и т.п.).

"Мы решили не выпускать модель Imagen Video или ее исходный код до тех пор, пока эти опасения не будут сняты", - заявляет Google.