Гайд: как оживить цифровой аватар в нейросети D-ID

Привет! Я Марат, кофаундер современной LMS-платформы EdproBiz и эксперт по работе с нейросетями.

Недавно мы с командой начали тестировать рилсы и короткие видеоанонсы в Телеграм, которые полностью созданы в нейросетях. На их создание у нас уходит от 5 до 10 минут при этом мы вообще не снимаем само видео и не монтируем его, а количество просмотров только растет. Некоторые пользователи даже не понимают, что перед ними говорящий аватар, сгенерированный нейросетью.

Meta — запрещенная организация на территории РФ

Решил поделиться с вами инструкцией по оживлению фото и их превращению в видео.

В видео мы используем даже не фото, а цифровые аватары, которые создаем в нейросети Midjourney. Недавно публиковали пошаговый гайд по созданию аватаров в этом ИИ.

Вы можете выбрать любую другую нейросеть для генерации изображения, но все-таки Midjourney — это ТОП-1 на данный момент. Или вообще можете оживить свое фото из личного архива.

Писать тексты для видеороликов в эпоху нейросетей самостоятельно? Ну уж нет. Идем в любимый ChatGPT и просим его написать нам список тем для видео и выдать сценарий по каждой из них. В этой статье разбирал возможности ChatGPT и даже оставил вам полезные промты для создания контента в соцсетях, поэтому останавливаться на этом не буду.

Гайд: как оживить цифровой аватар в нейросети D-ID

Если даже аудио нет времени записать, то и его можно сгенерировать в Generative voice AI. У сервиса есть пробный период. Работать в нем достаточно просто: нужно ввести текст, и нейросеть озвучит его и преобразует в аудиофайл.

В каталоге Generative voice AI вы можете выбрать нужный голос среди множества вариантов. Есть мужские, женские, высокие, низкие, с веселой интонацией и т.д. Можно попросить ИИ озвучить текст на разных языках.

Мы с командой все-таки предпочитаем использовать голоса наших экспертов в сгенерированных видео, а то и фото искусственно создано, и еще голос. Зачем тогда нужен человек? Заставляем экспертов и сотрудников хотя бы аудио со своим голосом нам отправлять.

Для этого мы используем нейросеть D-iD. Недавно сервис подешевел в 5 раз. Теперь минута созданного видео обходится примерно в 200 рублей — все зависит от курса доллара. Раньше это стоило 1000. За время сгенерированного видео с вас снимают кредиты. За 20 секунд видео примерно 3 кредита. Новым пользователям на бесплатном тарифе доступно 20, а потом уже можно выбрать себе подходящий тариф.

Интерфейс у сервиса понятный. В центре экрана вам предлагают выбрать фото, которое оживить. Вы можете загрузить свои изображения или выбрать из имеющихся. Кстати, если вы вставите фотографию с закрытым ртом, то нейросеть добавит ей зубы😁

Справа необходимо вставить текст, который вы хотите озвучить, или загрузить готовое аудио, переключив на «Audio». Если вы хотите, чтобы вам озвучили текст, то дополнительно нужно выбрать голос и язык озвучки. На бесплатном тарифе озвучка недоступна. Можно только свое аудио загрузить.

Когда вы все настроили, нажмите «Сгенерировать» и подождите минуту.

Видео готово!

Иногда видео, созданные этой нейросетью, выглядят странно, потому что звуки не совпадают с мимикой аватара. Дело в том, что пока D-iD не может так качественно распознавать русский язык, как английский.

Но это легко исправить, если у вас есть лишняя 1000$.

На сегодняшний день это сервис №1 по генерации текста в видео. Видео, созданные этой нейросетью, едва ли можно отличить от реальных. Но и своего аватара тут делать сложнее. Необходимо заснять себя на гринскрине, чтобы нейросеть изучила все ваши движения и мимику.

Мы пока не пользовались Synthesia, поэтому детали в работе с ИИ не знаю. Тут есть около 40 живых аватаров, если вы не хотите использовать свое лицо. А самое удивительное — нейросеть не просто озвучивает текст на разных языках, но еще и с разными акцентами. Так, можно выбрать британский английский, австралийский английский или шотландский.

Synthesia идеально подходит для создания видеопрезентаций ваших продуктов, мероприятий или видеоинструкций для сотрудников и клиентов. Видео выглядят действительно качественно и визуально привлекательно.

Ребята, а на кнопочки кто нажимать будет, чтобы это все генерировать? Ладно, шутка!

Да, с помощью нейросетей можно создавать экспертные видео для рилс с говорящей головой, видеоанонсы, инструкции и презентации, не прибегая к съемкам и за считаные минуты. Однако люди все еще являются носителями уникальных знаний. Несмотря на огромный поток информации в Интернете, она часто не носит личный характер, а людям интереснее слышать о том, как лично ВАМ удалось достичь успеха. Поэтому собираем свои знания, подключаем нейросети и быстренько пилим крутой контент, пока это не сделали ваши конкуренты.

Если у вас еще остались вопросы по работе в D-iD и созданию видео в нейросетях, готов поделиться с вами записью воркшопа по этой теме совершенно бесплатно. Вы сможете найти ее в этом чате. А еще там я публикую анонсы и расписания своих мастер-классов.

Собираемся и покоряем ИИ каждую неделю!

Гайд: как оживить цифровой аватар в нейросети D-ID

1. Создание цифрового аватара

2. Генерация текста

3. Генерация голоса

4. Превращаем фото в видео

Минусы D-iD

Генерация видео в Synthesia

Что в итоге? Люди не нужны?