Как за 5 минут создать видео с вашим лицом и голосом через нейросети? Пошаговый алгоритм

Всем привет, меня зовут Андрей Цыган и я ужасно не люблю записывать свои видео. Это же надо найти время когда никто не беспокоит, собраться с мыслями, причесаться, настроиться, молиться Перуну чтобы никто во время видео не начал звонить и т.д.

Но иногда надо - анонсы выступлений, обзор новинок, видео-контент. Я человек очень ленивый, но ответственный - поэтому пришлось искать способ как это сделать с минимальными затратами.

Вроде даже похож)

Я верю в пользу технологий, как для повседневной жизни, так и для бизнеса. Но не боготворю их - это всего лишь инструмент, который нужно знать как использовать. А чаще всего для решения конкретной задачи, как и в обычной жизни - это связка инструментов. Про это я говорил на вебинаре про ChatGPT.

Итак, для создания такого видео нам нужна команда!

Давайте с ней познакомимся:

  1. Текст подготовил - ChatGPT
  2. Фотографиями занималась - Midjourney и Upscale
  3. Озвучка может быть в нескольких вариантах: если вы хотите использовать виртуального диктора, то D-ID вам его предложит, если вы хотите озвучить самостоятельно то вам помогут Adobe Podcast, или если (только в рамках этики) чужим голосом - ElevanLabs
  4. Видео и монтаж - D-ID
  5. Дирижировал этот оркестр - ваш биологический друг - Андрей Цыган

Цели поставлены, команда в сборе, мотивация прям льётся через край - давайте посмотрим как это всё работает шаг за шагом.

0. Определяем задачу/ Где это применить

Именно цифра 0,и это самый главный этап. Нужно понять что делать, и зачем делать, и куда это пойдёт. Применений этого решения может быть много, в каждом бизнесе точно найдётся место, но давайте я навскидку дам несколько направлений:

- Контент для соц сетей - как пишут все SMM сейчас видео то что надо. Доверимся им и сделаем текстовую мысль в видео формате. Можете от своего лица, а можете и от лица Энштейна, или выдуманного киберцыгана в замёрзшем городе будущего.

Всего 1 биткоин и я вам погадаю
Всего 1 биткоин и я вам погадаю

- Приглашения, анонсы - собираете завтрак, хакатон, презентацию нового продукта? Вам это будет полезно

- Аватар CEO для корпочата - вы хотите уволить 4000 сотрудников одним сообщением в чате? давайте сделаем это технологически) Я конечно пошутил, но может быть отличным дополнением к сообщениям, объявлением в корпочате

А сейчас я расскажу когда выйдет Half-Life 3
А сейчас я расскажу когда выйдет Half-Life 3

- Общение с комьюнити - у вас есть ваше комьюнити, это могут быть даже партнёры, клиенты, бизнес клуб. Запишите вашу мысль и анимируйте.

- Сглаживание углов при косяках - ваша поддержка что то не так ответила клиенту, сгенерируем ролик с персональным текстом с "живым CEO" кто приносит извинения

Сегодня мы обсудим куда ушли 27 млрд из реальной вселенной на метавселенную
Сегодня мы обсудим куда ушли 27 млрд из реальной вселенной на метавселенную

- Пошутить над другом. Это всегда за милую душу, но надо быть аккуратным чтобы не переборщить)

Это только наброски, что пришло в голову - уверен,вы сможете найти ещё с десяток толковых применений. Делитесь идеями в комментариях - всем будет полезно.

Когда задача - что мы делаем, что будем доносить и в каком виде- сформирована в голове - можем приступать.

1. Делаем текст выступления

Если текст ещё не готов, обратимся в ChatGPT.

В зависимости от задачи вы напишите нужный вам запрос:

"Составь мне текст видеовыступления с темой приглашение на бизнес-завтрак на котором я буду рассказывать как космические корабли бороздят просторы вселенной"

Как за 5 минут создать видео с вашим лицом и голосом через нейросети? Пошаговый алгоритм

Мой опыт показывает, чтобы получить нужный текст надо сделать несколько итераций. Запрашивайте 5 вариантов, миксуйте, дополняйте, просите акцент на том что вам необходимо.

Более детально про работу ChatGPT, возможности и реальные примеры я рассказывал на вебинаре.

2. Делаем портрет аватар

Вы можете взять и ваш готовый портрет с профсъёмки, если задача стоит приблизиться максимум к реальности.

Если хочется разнообразить, то поиграемся с Midjourney и он допилит ваш портрет в нужной стилистике.

Сразу скажу - если хотите получить качественный свой портрет с определённой задумкой - это потребует времени на тесты, перебор входного портрета,и промтов.

В целом можно сгенерировать и новый персонаж - особенно если будем говорить о чём-то неприятном. Как раз отличная идея для новой должности "самый крайний в нашей компании".

Познакомьтесь - теперь это наш новый "директор по косякам" - Козлович Андрей Отпущенович
Познакомьтесь - теперь это наш новый "директор по косякам" - Козлович Андрей Отпущенович

Недавно я писал про новую фишку Midjourney - она сама по фото может определить prompt. Очень удобно если нужен определённый стиль, и быстро получить похожий промт.

Как за 5 минут создать видео с вашим лицом и голосом через нейросети? Пошаговый алгоритм

После получения фото в MJ идем в бесплатный сервис Upscale и улучшаем качество. Вшитая функция мне нравится менее.

Как за 5 минут создать видео с вашим лицом и голосом через нейросети? Пошаговый алгоритм

Этот шаг не критичен, но и занимает он 1 минуту.

Так же в самом приложении, которое будет делать видео есть уже стандартные аватары и генерация портретов. Но вот генерация честно работает так себе.

Это генерация по запросу взрослый мужчина в очках и костюме
Это генерация по запросу взрослый мужчина в очках и костюме
А это стандартные портреты для аватара
А это стандартные портреты для аватара

3. Делаем озвучку

Тут есть 3 варианта как будет разговаривать аватар.

3.1 Вашим голосом с записью.

Понятная история, особенно если нам нужно приблизиться к реальности. Записываем текст на любой диктофон (он будет с шумами ) - и дообработаем его в Adobe Podcast. Тут всё просто, загружаем файл, ждем минуту, получаем звук лучшего качества и без посторонних шумов.

Как за 5 минут создать видео с вашим лицом и голосом через нейросети? Пошаговый алгоритм

Вот пример записанного аудио с онлайн диктофона с последующей обработкой.

В этом варианте есть один существенный недостаток. Когда вы его загрузите в видео, то движение рта и губ аватара будет не синхронные. Решайте сами, насколько это вам критично или нет.

3.2 Синтезируем голос по примеру

Да, теперь есть возможность показать нейронке аудиозапись, и потом попросить озвучить текст этим же голосом.

И вот тут давайте не забывать про этику - технологии хорошо, но будьте уверены что эта запись не нанесёт вреда владельцу голоса.

И второй важный нюанс - пока сервис умеет работать только с английским языком. И это может быть и в плюс - простой метод озвучивания ваших роликов или материалов на английский язык.

Идём в приложение ElevenLabs

Создаётся это во вкладке Voice Lab, и нужно будет оплатить подписку. На первый месяц 5 долларов - для теста хватит.

Как за 5 минут создать видео с вашим лицом и голосом через нейросети? Пошаговый алгоритм

Давайте посмотрим голоса для сравнения:

1 . Вот запись реального моего голоса. Я взял первый попавшийся текст на английском языке и записал. Я знаю что у меня очень не очень произношение, но какое есть)

2. А вот так звучит озвученный нейронкой текст на основе моего голоса

И как вам? Мне результат понравился, может потому что нейроЦыган говорит на английском лучше чем реальный Цыган) Напишите в комментариях - похож голос или нет

Таким незамысловатым образом мы можем повторить любой голос, который будет не противоречить этике.

3.3. Виртуальный диктор

Идем в наше основное приложение D-ID

Как за 5 минут создать видео с вашим лицом и голосом через нейросети? Пошаговый алгоритм

Здесь уже есть русский язык, и 2 женских голоса и один мужской.

Полезно что есть возможность поставить паузы и возможность сразу прослушать. Слушаем, добавляем паузы, редактируем, и так до того момента когда мы будем довольны.

Как за 5 минут создать видео с вашим лицом и голосом через нейросети? Пошаговый алгоритм

4. Финальная сборка, монтаж - и результат

1 Выбираем или загружаем наш аватар

2. Решаем с озвучкой - или загружаем готовый аудиофайл, или пишем текст, ставим паузы и выбираем диктора.

3 Генерируем видео

Как за 5 минут создать видео с вашим лицом и голосом через нейросети? Пошаговый алгоритм

Теперь про деньги. D-ID даёт триал тариф на 20 кредитов. В среднем 1 кредит 1 минута. И регистрация происходит только по почте. Если нужны не длинные ролики, то вполне можно бесплатно пользоваться сервисом)

И вот наш конечный результат:

Меня зовут Андрей Цыган, я предприниматель и исследователь. Уже более 5ти лет плотно занимаюсь вопросами построения бизнес-процессов, автоматизации и цифровой трансформации бизнеса.

Мои бизнесы:

  1. Помогаем получить международные сертификаты,такие как ISO, CE в любой точке мира и на любую продукцию - "Изи-Штандарт"
  2. Автоматизируем процессы на базе amoCRM и BPM-платформы Sensei - Pushka Lab

В последнее время активно исследую возможности и полезность нейросетей для бизнеса.

Провёл небольшой вебинар, где простым языком описал принципы работы ChatGPT, так же у нас есть уютная группа для обмена опытом и обсуждения в этой сфере .

Если Вам интересно видео-инструкция - пишите в комментариях - сделаем!

8888
11
54 комментария

Комментарий недоступен

14
Ответить

Хаха))) надо поробовать

1
Ответить

я понял задачу на след статью)) нейронка которая пририсовывает сиськи) правда ко мне, ну как скажете) на вкус и цвет)))

Ответить

Неплохо, но эффект зловещей долины всё равно есть

6
Ответить

Для видео в кружочках телеги сойдет)

1
Ответить

Есть, и как всегда нужно делать эксперименты
Это очень простой софт, есть библиотеки посложнее, да и на стебл точно можно сделать
Но соотношение затраченного времени и результата мне понравилось

1
Ответить

Спасибо за ElevanLabs... до того пользовался платным, здесь нормальный триал.

4
Ответить