Новый ИИ-инструмент Adobe VideoGigaGAN может превратить размытое видео в видео с высоким разрешением

Знаете, меня всегда радует, когда какая-нибудь крупная технологическая компания анонсирует совершенно новый ИИ-инструмент. У меня есть склонность предвкушать что-то интересное или потрясающее, с чем можно поиграть или даже создать на его основе продукт.

Adobe представила предварительную исследовательскую версию VideoGigaGAN, которая может превратить размытое видео в высокодетализированное изображение с суперразрешением.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

VideoGigaGAN - это новая генеративная модель для получения видео с суперразрешением (VSR), которая предназначена для повышения разрешения видео с низким разрешением до высокого, сохраняя при этом высокочастотные детали и временную последовательность кадров.

Посмотрите примеры «до» и «после» ниже:

До

После

В приведенном выше примере видео разрешение было увеличено с 512x512 до 1028x1028. Помимо четырехкратного увеличения, конечное видео получило улучшенную детализацию. Результаты действительно впечатляют, демонстрируя возможности ИИ в улучшении качества видео.

Только взгляните на текстуры кожи и тонкие детали бровей. Это просто поразительно.

VideoGigaGAN расширяет асимметричную U-Net архитектуру апсемплера GigaGAN на основе изображений для работы с видеоданными. Модель включает в себя несколько ключевых компонентов, обеспечивающих временную согласованность видеокадров.

Во-первых, апсемплер изображения превращается в апсемплер видео путем интеграции слоев временного внимания в блоки декодера. Это позволяет модели эффективно захватывать и распространять временную информацию.

Во-вторых, для дальнейшего улучшения временной согласованности вводится модуль распространения, управляемый потоком. Этот модуль предоставляет временные характеристики в раздутый GigaGAN, используя оценку оптического потока и рекуррентную нейронную сеть для выравнивания и распространения характеристик по кадрам.

В-третьих, для уменьшения артефактов алиасинга, возникающих в результате операций понижающей дискретизации в кодере, вместо стандартных слоев понижающей дискретизации используются блоки сглаживания. Эти блоки применяют фильтр низких частот с последующей субдискретизацией, что позволяет подавить алиасинг и уменьшить временное мерцание в выходном видео.

Наконец, чтобы компенсировать потерю высокочастотных деталей, вызванную операцией сглаживания, используется высокочастотный челнок. Этот механизм напрямую передает высокочастотные характеристики от кодера к декодеру через пропускные соединения, минуя процесс BlurPool в блоках сглаживания. Благодаря этому в выходном видео сохраняются четкие детали и текстуры, а также улучшается временная согласованность.

Если вы хотите узнать больше о том, как это работает, ознакомьтесь с техническим описанием здесь.

Вот основные ограничения VideoGigaGAN:

Обработка очень длинных видео: VideoGigaGAN может столкнуться с трудностями при обработке видео с очень большим количеством кадров, например, превышающим 200 кадров.
Низкая производительность при работе с мелкими объектами: VideoGigaGAN с трудом справляется с эффективным суперразрешением мелких объектов в видеокадрах, особенно тех, которые содержат сложные детали, например текст или мелкие узоры.
Большой размер модели: По сравнению с предыдущими подходами VSR, VideoGigaGAN имеет заметно больший размер модели из-за включения дополнительных компонентов, таких как модуль распространения с управлением потоком и расширенная архитектура U-Net.
Зависимость от точности оптического потока: Эффективность модуля распространения по потоку VideoGigaGAN в значительной степени зависит от точности оценки оптического потока между видеокадрами. В случаях, когда оценка оптического потока неточна, например, при наличии больших движений, окклюзий или сложной динамики сцены, способность модели поддерживать временную согласованность может быть нарушена, что может привести к артефактам или несоответствиям в выходных данных с суперразрешением.

Вот еще примеры видео 128x128, увеличенного до 512x512.

Начиная с пиксельных кадров низкого разрешения и заканчивая четкими видео высокой четкости, очень интересно наблюдать, как модель ИИ может делать выводы и генерировать недостающие детали.

Похоже, что видео теперь получает больше любви со стороны технологических компаний. В прошлые годы создание видео или работа с ним с помощью ИИ не привлекали к себе такого внимания и не вызывали умопомрачительного прогресса.

Вскоре эти генераторы видео или инструменты редактирования на базе ИИ станут достаточно эффективными, чтобы работать на ваших смартфонах. Камеры больше не должны будут иметь аппаратное обеспечение со сверхвысоким разрешением, чтобы снимать высококачественное видео.

Если говорить об ИИ в видео, то сегодня ситуация меняется, и мы видим все больше и больше ИИ в сфере видео. Возьмем, к примеру, Sora от OpenAI - она наделала много шума, когда была выпущена. Другой пример - недавно анонсированный VASA-1 от Microsoft, который может превращать одно изображение в говорящее или поющее видео в режиме реального времени.

Появление ИИ в сфере видео - это захватывающее событие, которое обещает изменить способы создания, редактирования и потребления видеоконтента.

#adobe #видео

Оригинал статьи на английском - здесь.

Новый ИИ-инструмент Adobe VideoGigaGAN может превратить размытое видео в видео с высоким разрешением

Что такое VideoGigaGAN?

Как он работает

Ограничения

Другие примеры