Система V2A начинает с кодирования входного видео в сжатом виде. Используя диффузионную модель, звук итеративно очищается от случайного шума, ориентируясь на визуальные данные и промпты естественного языка, чтобы создать синхронизированный реалистичный звук. Затем конечный аудиосигнал декодируется, превращается в аудиоформат и объединяется с видео.
Чувствую, что Sora где то на подходе уже))) Спасибо за очередную, отличную статью!
Я тоже так думаю. Не может же openai так тормозить, упуская выгоду для себя. Видимо, выжидают подходящий момент
Если ему дать аудио немецких фильмов, интересно посмотреть что будет на выходе.
Да ему не аудио нужно давать, а видео )