Не верь ушам своим: нейросети для клонирования чужого голоса

С января 2024 года все чаще стали появляться новости о мошеннических звонках с использованием подмены голоса. Хотя голос человека уникален, как и отпечатки пальцев, в эпоху развития искусственного интеллекта даже собственным ушам доверять не стоит.

Рассказываем, какие нейросети способны генерировать чужие голоса и насколько сложно самостоятельно создать аудиодипфейк.

Для создания аудиодипфейков используется технология преобразования голоса — voice conversion. Если не углубляться в технические детали, то выглядит это довольно просто — голос одного человека конвертируется в голос другого с сохранением тембра, интонации и эмоциональной окраски. Ниже представили пять нейросетей, с помощью которых можно создать аудиодипфейк.

Text-to-Speech от CPA.LIVE — бесплатный онлайн-сервис для озвучки текста на 20 языках. Работает прямо в браузере, не требует регистрации и позволяет получить реалистичную нейросетевую речь за пару секунд. Поддерживает мужской и женский голос, регулировку скорости, а также экспорт в MP3 и WAV.

Идеально подходит для создания дикторских вставок, озвучки видео, учебных материалов и голосовых фрагментов. Без ограничений на количество запросов, до 500 символов за один раз. Полностью бесплатен, доступен всем без логинов и подписок.

Voice Changer от ElevenLabs — удобный сервис для редактирования аудио и работы со звуковыми форматами. Есть возможность клонирования и настройки голоса. Идеально подходит для сохранения эмоций и качества голоса. Есть бесплатная версия с ограниченным функционалом и платные тарифы с расширенными функциями.

AI Voice Changer — бесплатный сервис для изменения голоса в реальном времени. Он позволяет пользователям создавать аудиозаписи и настраивать их по своему вкусу или использовать голоса, созданные другими юзерами. Программа совместима с Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us, Skype, Whatsapp, Teamspeak и другими приложениями.

Помимо бесплатной подписки на 5000 токенов, разработчики предлагают 3 платные подписки с расширенным функционалом: цены стартуют с $14,99.

Сделать дипфейк голоса можно и на бесплатном тарифе — количество шаблонов ниже в разы, чем на платных подписках.

VoiceMy — нейросеть с обширным функционалом. С ее помощью можно редактировать аудиофайлы, создавать музыку, озвучивать тексты и клонировать голос любого человека или обучать собственную модель голоса. Есть платная подписка с расширенными функциями: цены стартуют с $9,99 в месяц.

Wavel — нейросеть, заточенная под маркетологов. Помимо генерации и клонирования голоса, ИИ умеет конвертировать текст в аудио и переводить речь на нужные языки.

Разработчики предлагают пробный тариф, но для полноценных ворков этого не хватит.

Цены на платные подписки начинаются с $25 в месяц: чем дороже подписка, тем больше инструментов достанется юзеру.

Resemble AI — это онлайн-генератор голоса, поддерживающий функцию клонирования. Нейросеть умеет регулировать тон и высоту голоса, добавлять эмоции. Для клонирования голоса необходимо загрузить 3-минутный аудиофайл с исходником. Resemble AI — платный продукт, но есть бесплатная демоверсия, предоставляемая по запросу.

Цены стартую с $9.5 в месяц — максимальный тариф обойдется в $699 ежемесячно.

Нейросетей, способных клонировать чужие голоса, много. Но действительно ли они способны создать реалистичную цифровую копию? Мы решили самостоятельно сделать аудиодипфейк в одной из описанных нейросетей. Больше всего положительных отзывов в сети было о Voice Changer от ElevenLabs, его мы и выбрали для эксперимента. Предложим нейросети записать небольшой спитч о нашем медиа голосами трех селебрити — Евгения Иванова, Дениса Денисенко и Моргенштерна.

Переходим на официальный сайт нейросети и жмем клавишу «Sign Up» на главной странице.

Зарегистрировать можно через Google-аккаунт или через почту. Мы выберем Гугл-профиль: так проще и быстрее — по окончании нажимаем клавишу «Sign Up».

Далее откроется личный кабинет, а на счет зачислят 10 000 токенов.

В AI Voice Changer 7 тарифных планов. Есть и бесплатный, но в нем для создания записи можно использовать только голоса из внутренней библиотеки сервиса. Чтобы сделать аудиодипфейк, мы оплатили тариф Starter — $5 в месяц. За эти деньги сервис предоставляет 30 минут аудиозаписи клонированных голосов и 30 000 кредитов.

К оплате не принимаются российские банковские карты. Поэтому используйте пластик, выпущенный в иностранном банке, или воспользуйтесь вспомогательными сервисами, как это сделали мы.

Для создания дипфейка понадобится исходник — аудиозапись человека, голосом которого нужно записать спитч. Если это медийная персона, получить пример нетрудно. В крайнем случае включите любое интервью или видео на YouTube и запишите звук на телефон.

Чтобы добавить голос в библиотеку AI Voice Changer, нужно:

В главном меню, расположенном слева, переходим в раздел «Голоса».
Нажимаем на плюсик, чтобы добавить исходник для клонирования.

В появившемся меню «Типы голосов для создания» выбираем «Мгновенное клонирование голоса».

Добавляем голос — загружаем аудиофайл с исходником, присваиваем имя и по желанию добавляем описание. Обязательно ставим галочку, соглашаясь с политикой конфиденциальности и условиями сервиса. Жмем кнопку «Добавить голос».

Чтобы нейросеть записала голосом знаменитости какое-то обращение, нужно заранее подготовить текст или аудиофайл с подходящей записью.

Чтобы клонировать голос, нужно:

Перейти в раздел «Речь».
Выбрать формат преобразования — текст в речь или аудиозапись в речь.
Выбрать в библиотеке голосов нужный исходник.
Нажать кнопку «Генерация речи».

Чтобы добиться большей схожести «клона» с исходником и избавиться от роботизированного звучания, можно поиграть с настройками голоса. Но мы оставили настройки по умолчанию для всех трех исходников.

Поставленная задача выполнена — аудиодипфейки с голосами Евгения Иванова, Дениса Денисенок и Моргенштерна сделаны. Их спичи, созданные нейросетью, звучат неплохо и местами очень похоже на оригинал. Хотя есть проблемы с интонацией и роботизированным звучанием отдельных слов. Но разработчики AI Voice Changer обещают создать максимально реалистичную цифровую копию голоса с качеством аудио 192 кбит/с в более дорогих тарифных планах.

Вот и настало «темное» цифровое будущее, когда нейросети заговорили чужими голосами. Но не стоит паниковать и отказываться от общения в мессенджерах или по телефону. Нейросети пока еще звучат не совсем естественно и неправильно интонируют впредложениях. Поэтому пока еще отличить искусственный интеллект от человека несложно. А что будет дальше — увидим.

Не верь ушам своим: нейросети для клонирования чужого голоса

Топ-6 нейросетей для генерации голоса

Text-to-Speech от CPA.LIVE

ElevenLabs Voice Changer

AI Voice Changer

VoiceMy

Wavel

Resemble AI

Как самостоятельно создать аудиодипфейк

Регистрация

Оплата подписки

Загрузка голоса в библиотеку

Создание аудиодипфейка

Заключение