Все начали делать видео с говорящими персонажами. И для lip sync используют одни и те же сервисы - не всегда понимая, какие задачи они решают.

Ниже - пять проверенных сервисов, которые лучше использовать, и зачем каждый из них на самом деле нужен. А еще - как заставить персонаж не просто говорить, но и петь.

Рассмотрим варианты: image → video lip sync (изображение в видео) и video → video lip sync (видео в видео).

кусочек из моего видео с lip sync персонажа. Автор песни Саша Комович

Здесь я использовала оживление image → video lip sync (изображение в видео) в сервисе Heygen.

1. Heygen

Делала через бот Syntx (ссылка на него есть в моем Телеграм-канале).

Как делаем:

- Подготовливаем фото персонажа при помощи Миджорни, Нано Банана или Seedream (я делала в Нано банана)

изображение, сгенерированное в Нано Банана 
изображение, сгенерированное в Нано Банана 

- Подготавливаем аудио с текстом для оживления. В Syntx это можно сделать через Синтез речи. Аудио с ИИ - Синтез речи - загружаем текст для аудио и выбираем голос персонажа.

- Открываем Видео будущего - Heygen, загружаем фото персонажа и аудио.

- Ждем пару минут. Видео с говорящим персонажем готово!

- Заходим в Topaz (в этом же разделе) и улучшаем качество видео.

Плюсы: простота, качество синхронизации губ на уровне.

Минусы: вы не контролируете эмоции и движения вашего персонажа.

Все это можно сделать в одном сервисе Syntx (ссылка на него есть в моем Телеграм-канале), не перепрыгивая с сайта на сайт.

Аналогичный процесс выстраивается во втором сервисе - Fabric

2. Fabric

сайт Fabric
сайт Fabric

Заходим на сайт Fabric, загружаем изображение + аудио и получаем готовое видео.

Максимальное качество 720p. По качеству синхронизации - чуть хуже, чем Heygen. Но так же просто и быстро.

Когда стоит задача сделать сложный персонаж, где нужен контроль эмоций и движений или синхронизация губ со сложного ракурса, например с такого:

сложный ракурс для lip sync
сложный ракурс для lip sync

Здесь пригодятся:

  • kling - для оживления персонажа и создания эмоций и движений, которые нам нужны в готовом видео
  • sync 2 pro - для синхронизации губ со звуками
  • infinity talk / infinity talk multi - аналог sync 2 pro

3. Kling

Kling здесь нужен для того, чтобы заранее задать эмоции или движение персонажу в видео и уже затем загрузить в сервис по lip sync.

Kling так же есть в Syntx.

Заходим в Видео будущего - Kling - загружаем фото персонажа. В настройках модели выбираем модель, например Kling 2.6 и прописываем промпт, что персонаж должен делать/не должен делать.

Например, промпт:

"Крупный план, камера слегка сбоку, спокойный статичный кадр. Девушка начинает говорить сразу, смотрит в камеру спокойно и отстранённо. Лёгкое естественное дыхание, мягкое моргание, минимальная микромимика. Эмоция: спокойствие, холодная уверенность, лёгкая отстранённость. Движения головы минимальные, корпус неподвижен. Фон статичный, мягкий холодный свет, без резких изменений. Реалистичная пластика лица, естественные движения губ, без преувеличенной артикуляции."

Вот что получается:

предварительное оживление персонажа в Kling с промптом

Мы получили минимальные эмоции, без непредвиденных взмахов рук.

Теперь можно идти в сервис для lip sync и работать в формате video → video lip sync.

4. Заходим на сайт Infinitetalk AI, загружаем видео из Kling, добавляем аудио, выбираем качество видео (у меня 720p), прописываем промпт при необходимости.

сайт Infinitetalk AI
сайт Infinitetalk AI

Через 2-3 минуты получаем видео:

несмотря на сложный ракурс, синхронизация губ с аудио получилась нормально

Далее отправляемся в Topaz и апскейлим видео.

Если не нравится как получилось с первого раза, то отправляем на перегенерацию и указываем в промте, что делать не нужно. Например, сильно качать головой или закрывать глаза.

Плюс Infinitetalk AI в том, что если видео короче аудио - сервис автоматически продляет видео в соответствии с длиной аудио.

Плюс формата video → video в том, что до того, как мы делаем lip sync, у нас есть возможность сохранить почти полный контроль состояния персонажа.

5. Аналогично можно пробовать такой формат в Sync 2 Pro и там он тоже работает хорошо.

Функция продления видео в соответствии с длиной аудио так же есть.

Буду рада вашим сохранениям, лайкам и кооментариям.

Больше про практическое применение нейросетям в контенте, блоге, маркетинге - пишу в моем Телеграм-канале.

Начать дискуссию