Все начали делать видео с говорящими персонажами. И для lip sync используют одни и те же сервисы - не всегда понимая, какие задачи они решают.

Ниже - пять проверенных сервисов, которые лучше использовать, и зачем каждый из них на самом деле нужен. А еще - как заставить персонаж не просто говорить, но и петь.

Рассмотрим варианты: image → video lip sync (изображение в видео) и video → video lip sync (видео в видео).

кусочек из моего видео с lip sync персонажа. Автор песни Саша Комович

Здесь я использовала оживление image → video lip sync (изображение в видео) в сервисе Heygen.

1. Heygen

Делала через бот Syntx (ссылка на него есть в моем Телеграм-канале).

Как делаем:

- Подготовливаем фото персонажа при помощи Миджорни, Нано Банана или Seedream (я делала в Нано банана)

изображение, сгенерированное в Нано Банана

- Подготавливаем аудио с текстом для оживления. В Syntx это можно сделать через Синтез речи. Аудио с ИИ - Синтез речи - загружаем текст для аудио и выбираем голос персонажа.

- Открываем Видео будущего - Heygen, загружаем фото персонажа и аудио.

- Ждем пару минут. Видео с говорящим персонажем готово!

- Заходим в Topaz (в этом же разделе) и улучшаем качество видео.

Плюсы: простота, качество синхронизации губ на уровне.

Минусы: вы не контролируете эмоции и движения вашего персонажа.

Все это можно сделать в одном сервисе Syntx (ссылка на него есть в моем Телеграм-канале), не перепрыгивая с сайта на сайт.

Аналогичный процесс выстраивается во втором сервисе - Fabric

2. Fabric

Заходим на сайт Fabric, загружаем изображение + аудио и получаем готовое видео.

Максимальное качество 720p. По качеству синхронизации - чуть хуже, чем Heygen. Но так же просто и быстро.

Когда стоит задача сделать сложный персонаж, где нужен контроль эмоций и движений или синхронизация губ со сложного ракурса, например с такого:

Здесь пригодятся:

kling - для оживления персонажа и создания эмоций и движений, которые нам нужны в готовом видео
sync 2 pro - для синхронизации губ со звуками
infinity talk / infinity talk multi - аналог sync 2 pro

3. Kling

Kling здесь нужен для того, чтобы заранее задать эмоции или движение персонажу в видео и уже затем загрузить в сервис по lip sync.

Kling так же есть в Syntx.

Заходим в Видео будущего - Kling - загружаем фото персонажа. В настройках модели выбираем модель, например Kling 2.6 и прописываем промпт, что персонаж должен делать/не должен делать.

Например, промпт:

"Крупный план, камера слегка сбоку, спокойный статичный кадр. Девушка начинает говорить сразу, смотрит в камеру спокойно и отстранённо. Лёгкое естественное дыхание, мягкое моргание, минимальная микромимика. Эмоция: спокойствие, холодная уверенность, лёгкая отстранённость. Движения головы минимальные, корпус неподвижен. Фон статичный, мягкий холодный свет, без резких изменений. Реалистичная пластика лица, естественные движения губ, без преувеличенной артикуляции."

Вот что получается:

предварительное оживление персонажа в Kling с промптом

Мы получили минимальные эмоции, без непредвиденных взмахов рук.

Теперь можно идти в сервис для lip sync и работать в формате video → video lip sync.

4. Заходим на сайт Infinitetalk AI, загружаем видео из Kling, добавляем аудио, выбираем качество видео (у меня 720p), прописываем промпт при необходимости.

Через 2-3 минуты получаем видео:

несмотря на сложный ракурс, синхронизация губ с аудио получилась нормально

Далее отправляемся в Topaz и апскейлим видео.

Если не нравится как получилось с первого раза, то отправляем на перегенерацию и указываем в промте, что делать не нужно. Например, сильно качать головой или закрывать глаза.

Плюс Infinitetalk AI в том, что если видео короче аудио - сервис автоматически продляет видео в соответствии с длиной аудио.

Плюс формата video → video в том, что до того, как мы делаем lip sync, у нас есть возможность сохранить почти полный контроль состояния персонажа.

5. Аналогично можно пробовать такой формат в Sync 2 Pro и там он тоже работает хорошо.

Функция продления видео в соответствии с длиной аудио так же есть.

Буду рада вашим сохранениям, лайкам и кооментариям.

Больше про практическое применение нейросетям в контенте, блоге, маркетинге - пишу в моем Телеграм-канале.