Не верь ушам своим: нейросети для клонирования чужого голоса

С января 2024 года все чаще стали появляться новости о мошеннических звонках с использованием подмены голоса. Хотя голос человека уникален, как и отпечатки пальцев, в эпоху развития искусственного интеллекта даже собственным ушам доверять не стоит.

Рассказываем, какие нейросети способны генерировать чужие голоса и насколько сложно самостоятельно создать аудиодипфейк.

Для создания аудиодипфейков используется технология преобразования голоса — voice conversion. Если не углубляться в технические детали, то выглядит это довольно просто — голос одного человека конвертируется в голос другого с сохранением тембра, интонации и эмоциональной окраски. Ниже представили пять нейросетей, с помощью которых можно создать аудиодипфейк.

Подписывайтесь на наш Телеграм

Voice Changer от ElevenLabs — удобный сервис для редактирования аудио и работы со звуковыми форматами. Есть возможность клонирования и настройки голоса. Идеально подходит для сохранения эмоций и качества голоса. Есть бесплатная версия с ограниченным функционалом и платные тарифы с расширенными функциями.

AI Voice Changer — бесплатный сервис для изменения голоса в реальном времени. Он позволяет пользователям создавать аудиозаписи и настраивать их по своему вкусу или использовать голоса, созданные другими юзерами. Программа совместима с Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us, Skype, Whatsapp, Teamspeak и другими приложениями.

В сервисе есть платные подписки Pro и Plus для доступа к расширенным функциям и дополнительным эффектам. Сделать аудиозапись с измененным голосом можно только на платных тарифах.

VoiceMy — бесплатная нейросеть с обширным функционалом. С ее помощью можно редактировать аудиофайлы, создавать музыку, озвучивать тексты и клонировать голос любого человека или обучать собственную модель голоса. Есть платная подписка с расширенными функциями.

Fluxon — программное обеспечение на основе искусственного интеллекта. Может преобразовать текст в аудио, клонировать голос, создавать диалоги и синтезировать голоса, переводить аудио на другой язык. Предусмотрена бесшовная интеграция с другими приложениями.

Resemble AI — это онлайн-генератор голоса, поддерживающий функцию клонирования. Нейросеть умеет регулировать тон и высоту голоса, добавлять эмоции. Для клонирования голоса необходимо загрузить 3-минутный аудиофайл с исходником. Resemble AI — платный продукт, но есть бесплатная демоверсия, предоставляемая по запросу.

Нейросетей, способных клонировать чужие голоса, много. Но действительно ли они способны создать реалистичную цифровую копию? Мы решили самостоятельно сделать аудиодипфейк в одной из описанных нейросетей. Больше всего положительных отзывов в сети было о Voice Changer от ElevenLabs, его мы и выбрали для эксперимента. Предложим нейросети записать небольшой спитч о нашем медиа голосами трех селебрити — Евгения Иванова, Дениса Денисенко и Моргенштерна.

Чтобы начать работать с программой, необходимо зарегистрироваться. Юзерам доступно два способа:

Зайти с действующего аккаунта Google.
Указать электронную почту, это будет логин, и придумать пароль для входа.

Далее нейронка просит указать свое имя и рассказать, откуда вы узнали о сервисе.

И еще немного знакомства — рассказать, чем вы занимаетесь и для каких целей планируете использовать AI Voice Changer.

В AI Voice Changer пять тарифных планов. Есть и бесплатный, но в нем для создания записи можно использовать только голоса из внутренней библиотеки сервиса. Чтобы сделать аудиодипфейк, мы оплатили тариф Starter — $1 в месяц. За эти деньги сервис предоставляет 30 минут аудиозаписи клонированных голосов и 10 мест в библиотеке для добавления своих речевых исходников.

К оплате не принимаются российские банковские карты. Поэтому используйте пластик, выпущенный в иностранном банке, или воспользуйтесь вспомогательными сервисами, как это сделали мы.

Для создания дипфейка понадобится исходник — аудиозапись человека, голосом которого нужно записать спитч. Если это медийная персона, получить пример нетрудно. В крайнем случае включите любое интервью или видео на YouTube и запишите звук на телефон.

Чтобы добавить голос в библиотеку AI Voice Changer, нужно:

В главном меню, расположенном слева, переходим в раздел «Голоса».
Нажимаем на плюсик, чтобы добавить исходник для клонирования.

В появившемся меню «Типы голосов для создания» выбираем «Мгновенное клонирование голоса».

Добавляем голос — загружаем аудиофайл с исходником, присваиваем имя и по желанию добавляем описание. Обязательно ставим галочку, соглашаясь с политикой конфиденциальности и условиями сервиса. Жмем кнопку «Добавить голос».

Чтобы нейросеть записала голосом знаменитости какое-то обращение, нужно заранее подготовить текст или аудиофайл с подходящей записью.

Чтобы клонировать голос, нужно:

Перейти в раздел «Речь».
Выбрать формат преобразования — текст в речь или аудиозапись в речь.
Выбрать в библиотеке голосов нужный исходник.
Нажать кнопку «Генерация речи».

Чтобы добиться большей схожести «клона» с исходником и избавиться от роботизированного звучания, можно поиграть с настройками голоса. Но мы оставили настройки по умолчанию для всех трех исходников.

Поставленная задача выполнена — аудиодипфейки с голосами Евгения Иванова, Дениса Денисенок и Моргенштерна сделаны. Их спичи, созданные нейросетью, звучат неплохо и местами очень похоже на оригинал. Хотя есть проблемы с интонацией и роботизированным звучанием отдельных слов. Но разработчики AI Voice Changer обещают создать максимально реалистичную цифровую копию голоса с качеством аудио 192 кбит/с в более дорогих тарифных планах.

Вот и настало «тёмное» цифровое будущее, когда нейросети заговорили чужими голосами. Но не стоит паниковать и отказываться от общения в мессенджерах или по телефону. Нейросети пока еще звучат не совсем естественно и неправильно интонируют впредложениях. Поэтому пока еще отличить искусственный интеллект от человека несложно. А что будет дальше — увидим.

2 комментария

Виталий Дуюнов

8 мая

так а где ваши варианты аудиозаписей то послушать?

В вашем примере аудио из текста генерировалось. а я ведь могу условно на диктофон сам записать и потом с помощью какой нейросети могу свою запись сделать с нужным мне голосом? просто по тексту мне кажется русская озвучка пока такое себе.