{"id":14287,"url":"\/distributions\/14287\/click?bit=1&hash=1d1b6427c21936742162fc18778388fc58ebf8e17517414e1bfb1d3edd9b94c0","hash":"1d1b6427c21936742162fc18778388fc58ebf8e17517414e1bfb1d3edd9b94c0","title":"\u0412\u044b\u0440\u0430\u0441\u0442\u0438 \u0438\u0437 \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u0430 \u0434\u043e \u0440\u0443\u043a\u043e\u0432\u043e\u0434\u0438\u0442\u0435\u043b\u044f \u0437\u0430 \u0433\u043e\u0434","buttonText":"","imageUuid":""}

Imagen Video: Google представила свой ИИ для создания HD-видеороликов из текстовых подсказок

Сегодня компания Google объявила о разработке Imagen Video - нейросети, способной создавать видео 1280×768 с частотой 24 кадра в секунду на основе письменной подсказки. В настоящее время проект находится на стадии исследования, но его появление через пять месяцев после появления Google Imagen указывает на быстрое развитие моделей генерации видео.

На сайте официального релиза Imagen Video можно посмотреть примеры представленные командой.

A teddy bear washing the dishes (Плюшевый мишка моет посуду)

Спустя всего шесть месяцев после запуска генератора текста в изображение DALLE-2 от OpenAI, прогресс в области моделей распространения ИИ стремительно набирает обороты. Анонс Imagen Video от Google произошел менее чем через неделю после того, как компания Meta представила свой инструмент ИИ для преобразования текста в видео - Make-A-Video.

Полет через напряженное сражение между пиратскими кораблями в океане во время шторма.

Ключом к возможностям Imagen Video является "каскад" из семи диффузионных моделей, которые преобразуют исходный текст. Например, "медведь моет посуду" в видео низкого разрешения (16 кадров, 24×48 пикселей, со скоростью 3 кадра в секунду), а затем с каждым шагом увеличивают его до все более высокого разрешения с более высокой частотой кадров. Длина конечного видео на выходе составляет 5,3 секунды.

Примеры видео, представленные на сайте Imagen Video, варьируются от обыденных "тающее мороженое стекает по рожку", до более фантастических "Полет во время напряженной битвы между пиратскими кораблями в бурном океане". Они содержат очевидные артефакты, но демонстрируют большую плавность и детализацию, чем более ранние модели преобразования текста в изображение, такие как например CogVideo, дебютировавшие пять месяцев назад.

По сравнению с моделью изображений Imagen, модель Video Imagen была расширена до временной области и обучена на изображениях и видео одновременно. По словам Google, сильные стороны модели изображений Imagen были сохранены. Для обработки текста Google использовал большую, предварительно обученную языковую модель Transformer T5-XXL, как и для модели изображений Imagen.

Как и в случае с Imagen (генеарация картинок) и другими генеративными разработками, Google пока не выпускает модель в открытый доступ. Причина объясняется тем же: поиск путей решения защиты от небезопасного контента (дискриминация, насилие и т.п.).

"Мы решили не выпускать модель Imagen Video или ее исходный код до тех пор, пока эти опасения не будут сняты", - заявляет Google.

0
55 комментариев
Написать комментарий...
Российский Крым

Очередная революция поменявшая мир. Их было уже много, я помню нам обещали что мир перевернёт сигвей (кто вообще помнит что за фигня?), потом мир решили изменить с помощью 3D, сначала телевизоры (получилось так себе), а потом и 3D принтеры, даже дома и органы человека пытались печатать. Затем мир изменяла дополнительная реальность и метавселенная туда же. Теперь вот нейросети. Результат будет аналогичный, вместо обещанного взрыва технологий - пердёж маркетологов.

Ответить
Развернуть ветку
Иван Миронов

Справедливости ради - нейросети активно используют и модернизируют. В случае с 3-д и сигвеями развитие остановилось почти сразу.
Перевернет ли она весь мир? Сейчас вряд ли, но никто не знает что будет завтра.

Ответить
Развернуть ветку
52 комментария
Раскрывать всегда