Новая ИИ-модель от Google может генерировать качественное аудио из видео

Новая ИИ-модель от Google может генерировать качественное аудио из видео

За последние несколько недель мы увидели множество новых инструментов для преобразования текста в видео и изображений в видео, таких как Google Veo, Kling от Kuaishou, Dream Machine от Luma Lab и недавно анонсированный Runway Gen-3 Alpha.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Эти ИИ-видеоинструменты дают впечатляющие результаты, но у них есть общее ограничение - все они генерируют видео без звука.

Ни диалогов, ни саундтрека, ни звуковых эффектов.

Сегодня Google поделилась информацией о разрабатываемой технологии, которая может генерировать звук из видео.

ChatGPT на русском - бот, который работает в Телеграм без ВПН.

С помощью бота вы можете пользоваться DALLE-3 и ChatGPT на русском языке. Здесь все как обычно - пишете запрос, и быстро получаете ответ.

Что такое Google V2A?

Технология Google Video-to-audio (V2A) объединяет видеопиксели с текстовыми промптами на естественном языке для создания богатого звукового сопровождения действий на экране.

V2A не только создает реалистичные звуковые эффекты и диалоги, соответствующие персонажам и тону видео, но и может генерировать саундтреки для различных традиционных материалов, включая архивные материалы, немые фильмы и многое другое.

Примеры

Вот пять примеров, которыми команда Google Deepmind поделилась в своем блоге:

1. Барабаны

Промпт: A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd

2. Автомобили

cars skidding, car engine throttling, angelic electronic music

3. Волк

Wolf howling at the moon

4. Подводная медуза

jellyfish pulsating under water, marine life, ocean

5. Сцена ужаса

Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete

Это впечатляет!

Хотя есть и ограничения, такие как артефакты и искажения, общее качество выходного сигнала все же достаточно, чтобы значительно улучшить впечатление от видео.

Давно пора дополнить видео, созданные ИИ, генератором звука, и V2A - многообещающий шаг в этом направлении.

Как работает V2A

Google экспериментировал с различными подходами, чтобы найти наиболее масштабируемую архитектуру ИИ для создания аудио, и метод, основанный на диффузии, обеспечил наиболее реалистичные результаты для синхронизации видео и аудио.

Диффузия - это процесс, в ходе которого модель ИИ обучается составлять визуальные (неподвижные или движущиеся) концепции из пиксельного "шума", основываясь на изучении этих концепций на основе аннотированных изображений или пар видео и текста.

Система V2A начинает с кодирования входного видео в сжатом виде. Используя диффузионную модель, звук итеративно очищается от случайного шума, ориентируясь на визуальные данные и промпты естественного языка, чтобы создать синхронизированный реалистичный звук. Затем конечный аудиосигнал декодируется, превращается в аудиоформат и объединяется с видео.

Новая ИИ-модель от Google может генерировать качественное аудио из видео

Чтобы улучшить качество звука и сориентировать модель на конкретные звуки, исследователи включили в процесс обучения созданные ИИ аннотации с подробными звуковыми описаниями и расшифровками разговорных диалогов. Это позволяет технологии ассоциировать конкретные звуковые события с различными визуальными сценами на основе предоставленных аннотаций или расшифровок.

Более подробную информацию можно найти в блоге Google здесь.

Ограничения

Несмотря на достигнутые успехи, Google все еще работает над устранением ряда ограничений:

  • Зависимость от качества видео: Качество выходного аудиосигнала сильно зависит от качества исходного видео. Артефакты или искажения в видео, которые находятся за пределами обучающего распределения модели, могут привести к заметному снижению качества звука.
  • Проблемы с синхронизацией губ: Для видео с речью V2A пытается генерировать речь из входных транскриптов и синхронизировать ее с движениями губ персонажей. Однако модель генерации парного видео может не учитывать транскрипты, что приводит к несовпадению, часто вызывающему нечеткую синхронизацию губ.
  • Совмещение аудио- и видеоэлементов: Хотя V2A не требует совмещения сгенерированного звука и видео вручную, синхронизация различных звуковых элементов, визуальных эффектов и тайминга остается сложной задачей.

Команда, работающая над этой технологией, говорит, что ведутся дальнейшие исследования, чтобы устранить эти ограничения и расширить возможности системы V2A.

Несмотря на то, что технология V2A от Google находится в стадии предварительной разработки, ее первые результаты уже впечатляют. Видеогенераторы развиваются беспрецедентными темпами, и настало время, чтобы эти видео с ИИ работали в паре с аудиогенератором.

Не терпится услышать звук всех тех мемов, которые люди создают с помощью AI видеогенераторов.

Однако сроки появления V2A в открытом доступе остаются неясными. По словам представителей Google, прежде чем предоставить доступ к этой технологии широкой публике, она должна пройти ряд тщательных испытаний.

Прежде чем мы рассмотрим возможность открытия доступа к ней для широкой публики, наша технология V2A пройдет тщательную оценку и тестирование на безопасность.

Тем не менее, радует тот факт, что подобная технология находится в разработке, и вскоре мы сможем увидеть ИИ-генераторы видео, органично добавляющие аудио.

ChatGPT на русском - бот, который работает в Телеграм без ВПН.

С помощью бота вы можете пользоваться DALLE-3 и ChatGPT на русском языке. Здесь все как обычно - пишете запрос, и быстро получаете ответ.
Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Источник статьи на английском - здесь.

10
1
4 комментария

Чувствую, что Sora где то на подходе уже))) Спасибо за очередную, отличную статью!

1
Ответить

Я тоже так думаю. Не может же openai так тормозить, упуская выгоду для себя. Видимо, выжидают подходящий момент

1
Ответить

Если ему дать аудио немецких фильмов, интересно посмотреть что будет на выходе.

1
Ответить

Да ему не аудио нужно давать, а видео )

Ответить