Все начали делать видео с говорящими персонажами. И для lip sync используют одни и те же сервисы - не всегда понимая, какие задачи они решают.
Ниже - пять проверенных сервисов, которые лучше использовать, и зачем каждый из них на самом деле нужен. А еще - как заставить персонаж не просто говорить, но и петь.
Рассмотрим варианты: image → video lip sync (изображение в видео) и video → video lip sync (видео в видео).
Здесь я использовала оживление image → video lip sync (изображение в видео) в сервисе Heygen.
1. Heygen
Делала через бот Syntx (ссылка на него есть в моем Телеграм-канале).
Как делаем:
- Подготовливаем фото персонажа при помощи Миджорни, Нано Банана или Seedream (я делала в Нано банана)
- Подготавливаем аудио с текстом для оживления. В Syntx это можно сделать через Синтез речи. Аудио с ИИ - Синтез речи - загружаем текст для аудио и выбираем голос персонажа.
- Открываем Видео будущего - Heygen, загружаем фото персонажа и аудио.
- Ждем пару минут. Видео с говорящим персонажем готово!
- Заходим в Topaz (в этом же разделе) и улучшаем качество видео.
Плюсы: простота, качество синхронизации губ на уровне.
Минусы: вы не контролируете эмоции и движения вашего персонажа.
Все это можно сделать в одном сервисе Syntx (ссылка на него есть в моем Телеграм-канале), не перепрыгивая с сайта на сайт.
Аналогичный процесс выстраивается во втором сервисе - Fabric
2. Fabric
Заходим на сайт Fabric, загружаем изображение + аудио и получаем готовое видео.
Максимальное качество 720p. По качеству синхронизации - чуть хуже, чем Heygen. Но так же просто и быстро.
Когда стоит задача сделать сложный персонаж, где нужен контроль эмоций и движений или синхронизация губ со сложного ракурса, например с такого:
Здесь пригодятся:
- kling - для оживления персонажа и создания эмоций и движений, которые нам нужны в готовом видео
- sync 2 pro - для синхронизации губ со звуками
- infinity talk / infinity talk multi - аналог sync 2 pro
3. Kling
Kling здесь нужен для того, чтобы заранее задать эмоции или движение персонажу в видео и уже затем загрузить в сервис по lip sync.
Kling так же есть в Syntx.
Заходим в Видео будущего - Kling - загружаем фото персонажа. В настройках модели выбираем модель, например Kling 2.6 и прописываем промпт, что персонаж должен делать/не должен делать.
Например, промпт:
"Крупный план, камера слегка сбоку, спокойный статичный кадр. Девушка начинает говорить сразу, смотрит в камеру спокойно и отстранённо. Лёгкое естественное дыхание, мягкое моргание, минимальная микромимика. Эмоция: спокойствие, холодная уверенность, лёгкая отстранённость. Движения головы минимальные, корпус неподвижен. Фон статичный, мягкий холодный свет, без резких изменений. Реалистичная пластика лица, естественные движения губ, без преувеличенной артикуляции."
Вот что получается:
Мы получили минимальные эмоции, без непредвиденных взмахов рук.
Теперь можно идти в сервис для lip sync и работать в формате video → video lip sync.
4. Заходим на сайт Infinitetalk AI, загружаем видео из Kling, добавляем аудио, выбираем качество видео (у меня 720p), прописываем промпт при необходимости.
Через 2-3 минуты получаем видео:
Далее отправляемся в Topaz и апскейлим видео.
Если не нравится как получилось с первого раза, то отправляем на перегенерацию и указываем в промте, что делать не нужно. Например, сильно качать головой или закрывать глаза.
Плюс Infinitetalk AI в том, что если видео короче аудио - сервис автоматически продляет видео в соответствии с длиной аудио.
Плюс формата video → video в том, что до того, как мы делаем lip sync, у нас есть возможность сохранить почти полный контроль состояния персонажа.
5. Аналогично можно пробовать такой формат в Sync 2 Pro и там он тоже работает хорошо.
Функция продления видео в соответствии с длиной аудио так же есть.
Буду рада вашим сохранениям, лайкам и кооментариям.
Больше про практическое применение нейросетям в контенте, блоге, маркетинге - пишу в моем Телеграм-канале.