{"id":14293,"url":"\/distributions\/14293\/click?bit=1&hash=05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","hash":"05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","title":"\u0421\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0435 \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0432 \u043d\u0438 \u043a\u043e\u043f\u0435\u0439\u043a\u0438","buttonText":"","imageUuid":""}

Как за 5 минут создать видео с вашим лицом и голосом через нейросети? Пошаговый алгоритм

Всем привет, меня зовут Андрей Цыган и я ужасно не люблю записывать свои видео. Это же надо найти время когда никто не беспокоит, собраться с мыслями, причесаться, настроиться, молиться Перуну чтобы никто во время видео не начал звонить и т.д.

Но иногда надо - анонсы выступлений, обзор новинок, видео-контент. Я человек очень ленивый, но ответственный - поэтому пришлось искать способ как это сделать с минимальными затратами.

Вроде даже похож)

Я верю в пользу технологий, как для повседневной жизни, так и для бизнеса. Но не боготворю их - это всего лишь инструмент, который нужно знать как использовать. А чаще всего для решения конкретной задачи, как и в обычной жизни - это связка инструментов. Про это я говорил на вебинаре про ChatGPT.

Итак, для создания такого видео нам нужна команда!

Давайте с ней познакомимся:

  1. Текст подготовил - ChatGPT
  2. Фотографиями занималась - Midjourney и Upscale
  3. Озвучка может быть в нескольких вариантах: если вы хотите использовать виртуального диктора, то D-ID вам его предложит, если вы хотите озвучить самостоятельно то вам помогут Adobe Podcast, или если (только в рамках этики) чужим голосом - ElevanLabs
  4. Видео и монтаж - D-ID
  5. Дирижировал этот оркестр - ваш биологический друг - Андрей Цыган

Цели поставлены, команда в сборе, мотивация прям льётся через край - давайте посмотрим как это всё работает шаг за шагом.

0. Определяем задачу/ Где это применить

Именно цифра 0,и это самый главный этап. Нужно понять что делать, и зачем делать, и куда это пойдёт. Применений этого решения может быть много, в каждом бизнесе точно найдётся место, но давайте я навскидку дам несколько направлений:

- Контент для соц сетей - как пишут все SMM сейчас видео то что надо. Доверимся им и сделаем текстовую мысль в видео формате. Можете от своего лица, а можете и от лица Энштейна, или выдуманного киберцыгана в замёрзшем городе будущего.

Всего 1 биткоин и я вам погадаю

- Приглашения, анонсы - собираете завтрак, хакатон, презентацию нового продукта? Вам это будет полезно

- Аватар CEO для корпочата - вы хотите уволить 4000 сотрудников одним сообщением в чате? давайте сделаем это технологически) Я конечно пошутил, но может быть отличным дополнением к сообщениям, объявлением в корпочате

А сейчас я расскажу когда выйдет Half-Life 3

- Общение с комьюнити - у вас есть ваше комьюнити, это могут быть даже партнёры, клиенты, бизнес клуб. Запишите вашу мысль и анимируйте.

- Сглаживание углов при косяках - ваша поддержка что то не так ответила клиенту, сгенерируем ролик с персональным текстом с "живым CEO" кто приносит извинения

Сегодня мы обсудим куда ушли 27 млрд из реальной вселенной на метавселенную

- Пошутить над другом. Это всегда за милую душу, но надо быть аккуратным чтобы не переборщить)

Это только наброски, что пришло в голову - уверен,вы сможете найти ещё с десяток толковых применений. Делитесь идеями в комментариях - всем будет полезно.

Когда задача - что мы делаем, что будем доносить и в каком виде- сформирована в голове - можем приступать.

1. Делаем текст выступления

Если текст ещё не готов, обратимся в ChatGPT.

В зависимости от задачи вы напишите нужный вам запрос:

"Составь мне текст видеовыступления с темой приглашение на бизнес-завтрак на котором я буду рассказывать как космические корабли бороздят просторы вселенной"

Мой опыт показывает, чтобы получить нужный текст надо сделать несколько итераций. Запрашивайте 5 вариантов, миксуйте, дополняйте, просите акцент на том что вам необходимо.

Более детально про работу ChatGPT, возможности и реальные примеры я рассказывал на вебинаре.

2. Делаем портрет аватар

Вы можете взять и ваш готовый портрет с профсъёмки, если задача стоит приблизиться максимум к реальности.

Если хочется разнообразить, то поиграемся с Midjourney и он допилит ваш портрет в нужной стилистике.

Сразу скажу - если хотите получить качественный свой портрет с определённой задумкой - это потребует времени на тесты, перебор входного портрета,и промтов.

В целом можно сгенерировать и новый персонаж - особенно если будем говорить о чём-то неприятном. Как раз отличная идея для новой должности "самый крайний в нашей компании".

Познакомьтесь - теперь это наш новый "директор по косякам" - Козлович Андрей Отпущенович

Недавно я писал про новую фишку Midjourney - она сама по фото может определить prompt. Очень удобно если нужен определённый стиль, и быстро получить похожий промт.

После получения фото в MJ идем в бесплатный сервис Upscale и улучшаем качество. Вшитая функция мне нравится менее.

Этот шаг не критичен, но и занимает он 1 минуту.

Так же в самом приложении, которое будет делать видео есть уже стандартные аватары и генерация портретов. Но вот генерация честно работает так себе.

Это генерация по запросу взрослый мужчина в очках и костюме
А это стандартные портреты для аватара

3. Делаем озвучку

Тут есть 3 варианта как будет разговаривать аватар.

3.1 Вашим голосом с записью.

Понятная история, особенно если нам нужно приблизиться к реальности. Записываем текст на любой диктофон (он будет с шумами ) - и дообработаем его в Adobe Podcast. Тут всё просто, загружаем файл, ждем минуту, получаем звук лучшего качества и без посторонних шумов.

Вот пример записанного аудио с онлайн диктофона с последующей обработкой.

В этом варианте есть один существенный недостаток. Когда вы его загрузите в видео, то движение рта и губ аватара будет не синхронные. Решайте сами, насколько это вам критично или нет.

3.2 Синтезируем голос по примеру

Да, теперь есть возможность показать нейронке аудиозапись, и потом попросить озвучить текст этим же голосом.

И вот тут давайте не забывать про этику - технологии хорошо, но будьте уверены что эта запись не нанесёт вреда владельцу голоса.

И второй важный нюанс - пока сервис умеет работать только с английским языком. И это может быть и в плюс - простой метод озвучивания ваших роликов или материалов на английский язык.

Идём в приложение ElevenLabs

Создаётся это во вкладке Voice Lab, и нужно будет оплатить подписку. На первый месяц 5 долларов - для теста хватит.

Давайте посмотрим голоса для сравнения:

1 . Вот запись реального моего голоса. Я взял первый попавшийся текст на английском языке и записал. Я знаю что у меня очень не очень произношение, но какое есть)

2. А вот так звучит озвученный нейронкой текст на основе моего голоса

И как вам? Мне результат понравился, может потому что нейроЦыган говорит на английском лучше чем реальный Цыган) Напишите в комментариях - похож голос или нет

Таким незамысловатым образом мы можем повторить любой голос, который будет не противоречить этике.

3.3. Виртуальный диктор

Идем в наше основное приложение D-ID

Здесь уже есть русский язык, и 2 женских голоса и один мужской.

Полезно что есть возможность поставить паузы и возможность сразу прослушать. Слушаем, добавляем паузы, редактируем, и так до того момента когда мы будем довольны.

4. Финальная сборка, монтаж - и результат

1 Выбираем или загружаем наш аватар

2. Решаем с озвучкой - или загружаем готовый аудиофайл, или пишем текст, ставим паузы и выбираем диктора.

3 Генерируем видео

Теперь про деньги. D-ID даёт триал тариф на 20 кредитов. В среднем 1 кредит 1 минута. И регистрация происходит только по почте. Если нужны не длинные ролики, то вполне можно бесплатно пользоваться сервисом)

И вот наш конечный результат:

Меня зовут Андрей Цыган, я предприниматель и исследователь. Уже более 5ти лет плотно занимаюсь вопросами построения бизнес-процессов, автоматизации и цифровой трансформации бизнеса.

Мои бизнесы:

  1. Помогаем получить международные сертификаты,такие как ISO, CE в любой точке мира и на любую продукцию - "Изи-Штандарт"
  2. Автоматизируем процессы на базе amoCRM и BPM-платформы Sensei - Pushka Lab

В последнее время активно исследую возможности и полезность нейросетей для бизнеса.

Провёл небольшой вебинар, где простым языком описал принципы работы ChatGPT, так же у нас есть уютная группа для обмена опытом и обсуждения в этой сфере .

Если Вам интересно видео-инструкция - пишите в комментариях - сделаем!

0
53 комментария
Написать комментарий...
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Виктор Арсеньев

Хаха))) надо поробовать

Ответить
Развернуть ветку
Андрей Цыган
Автор

я понял задачу на след статью)) нейронка которая пририсовывает сиськи) правда ко мне, ну как скажете) на вкус и цвет)))

Ответить
Развернуть ветку
2 комментария
Daniil Volynkin

Неплохо, но эффект зловещей долины всё равно есть

Ответить
Развернуть ветку
Антон Кузьмин

Для видео в кружочках телеги сойдет)

Ответить
Развернуть ветку
Андрей Цыган
Автор

Есть, и как всегда нужно делать эксперименты
Это очень простой софт, есть библиотеки посложнее, да и на стебл точно можно сделать
Но соотношение затраченного времени и результата мне понравилось

Ответить
Развернуть ветку
Invest Blog

Спасибо за ElevanLabs... до того пользовался платным, здесь нормальный триал.

Ответить
Развернуть ветку
Маргарита

нормально работает с русским языком? Или акцентит на английский?

Ответить
Развернуть ветку
10 комментариев
Дмитрий Беговатов

Для диалогов в какой-нибудь ролевой инди-игрушке — пойдет, но для замены спикера в ролике на ютубе — совсем не то. В целом прикольно :)

Ответить
Развернуть ветку
Андрей Цыган
Автор

Вопрос какой ролик
У меня товарищ так озвучил технику безопастности для сотрудников - в целом отлично

Ответить
Развернуть ветку
Anna Petrova

Вот спасибо интересно 👍

Ответить
Развернуть ветку
Ната

С директором по "косякам" отлично!

Ответить
Развернуть ветку
Андрей Цыган
Автор

шутки шутками, а если все на удаленке, то почему не добавить такого товарища)) который будет извиняться)

Ответить
Развернуть ветку
Азер Гарягды

В позапрошлом году попался сервис на глаза https://visper.tech/ - тут совсем просто и ходить на сторону не надо. Язык нативно русский.

Ответить
Развернуть ветку
Андрей Цыган
Автор

спасибо, гляну!

Ответить
Развернуть ветку
Юрий Мальцев

Интересно 👍

Ответить
Развернуть ветку
Kiss1nger

Йосик Пригожин выдохнул...

Ответить
Развернуть ветку
Андрей Соломатов

Смотрю таки статьи и понимаю, какой все таки ИИ мощный инструмент для создания фейков

Ответить
Развернуть ветку
Андрей Цыган
Автор

и это очееееееееень большая проблема
Скоро про это напишу
Мы тут с одной стороны играемся, а вот мошшенники уже точно пилят - все эти сообщения - я попал в ДТП и прочее
ChatGPT - уникальный текст, а если ещё начнёт по ссылкам смотреть ваши соц сети
И потом такое видео на фоне машины
95% людей в ближайшее время не отличат(((

Ответить
Развернуть ветку
Alexander Kuzmin

Прикольно.
Но времени займет в разы больше чем вживую делать

Ответить
Развернуть ветку
Игорь Субботин

Вы не представляете, до чего может довести лень и нежелание гладить рубашку и бриться.

Ответить
Развернуть ветку
Андрей Цыган
Автор

Знаете, после 3ей итерации это прям на автомате. Сделал папку с моими портретами+ сгенерил пару в MJ
Текст быстро в чатгпт, потот выбираем аватар и расставляем паузы
Серьезно пару минут

Ответить
Развернуть ветку
3 комментария
Евгений Мартынов

А зачем генерировать такой хуёвый текст в жпт? Чтобы что? Или это просто модно сейчас - въебать лишний базворд в и без того бессмысленную статью, лишь увеличивающую информационную энтропию.

Ответить
Развернуть ветку
Ruslan Shikhaliev

А нахера задавать размытые вопросы, на которые сам отвечаешь? Чтобы по язвить и выпендриваться?

Ответить
Развернуть ветку
1 комментарий
Александр Лихтман

Оу, наконец в 11лабс добавили нормальный русский голос!

Ответить
Развернуть ветку
Андрей Цыган
Автор

нету русского, там с акцентом, я писал, там только англ
русский в самом d-id делается

Ответить
Развернуть ветку
3 комментария
Kate

Как круто, спасибо😍

Ответить
Развернуть ветку
Виктор Арсеньев

Интересная статья.

Ответить
Развернуть ветку
Илья Рабченок

Классно и изложение норм, про цыгана и погадаю мне понравилось))

Ответить
Развернуть ветку
Павел Измайлов

Ох, до жути пугает меня эта штука (но все равно смотрю)

Ответить
Развернуть ветку
Андрей Цыган
Автор

это же готовая, с хорошим UX - а если нужно лучше качество, то уже есть, пока правда не маркет реди, но будут.

Пока это прикольно, но вы правы, есть варианты использования совсем не во благо

Ответить
Развернуть ветку
Василий Прорубщиков

Приветствую. Прикольно. Может попробую друга приколоть. Мысль есть.

Ответить
Развернуть ветку
Татьяна Евсеева

Звук не очень, думаю он и портит эффект, а так прикольно конечно)

Ответить
Развернуть ветку
Лина

на каком сервисе можно накладывать на видео, не на фото?

Ответить
Развернуть ветку
50 комментариев
Раскрывать всегда