Не верь ушам своим: нейросети для клонирования чужого голоса
С января 2024 года все чаще стали появляться новости о мошеннических звонках с использованием подмены голоса. Хотя голос человека уникален, как и отпечатки пальцев, в эпоху развития искусственного интеллекта даже собственным ушам доверять не стоит.
Рассказываем, какие нейросети способны генерировать чужие голоса и насколько сложно самостоятельно создать аудиодипфейк.
Топ-6 нейросетей для генерации голоса
Для создания аудиодипфейков используется технология преобразования голоса — voice conversion. Если не углубляться в технические детали, то выглядит это довольно просто — голос одного человека конвертируется в голос другого с сохранением тембра, интонации и эмоциональной окраски. Ниже представили пять нейросетей, с помощью которых можно создать аудиодипфейк.
Text-to-Speech от CPA.LIVE
Text-to-Speech от CPA.LIVE — бесплатный онлайн-сервис для озвучки текста на 20 языках. Работает прямо в браузере, не требует регистрации и позволяет получить реалистичную нейросетевую речь за пару секунд. Поддерживает мужской и женский голос, регулировку скорости, а также экспорт в MP3 и WAV.
Идеально подходит для создания дикторских вставок, озвучки видео, учебных материалов и голосовых фрагментов. Без ограничений на количество запросов, до 500 символов за один раз. Полностью бесплатен, доступен всем без логинов и подписок.
ElevenLabs Voice Changer
Voice Changer от ElevenLabs — удобный сервис для редактирования аудио и работы со звуковыми форматами. Есть возможность клонирования и настройки голоса. Идеально подходит для сохранения эмоций и качества голоса. Есть бесплатная версия с ограниченным функционалом и платные тарифы с расширенными функциями.
AI Voice Changer
AI Voice Changer — бесплатный сервис для изменения голоса в реальном времени. Он позволяет пользователям создавать аудиозаписи и настраивать их по своему вкусу или использовать голоса, созданные другими юзерами. Программа совместима с Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us, Skype, Whatsapp, Teamspeak и другими приложениями.
Помимо бесплатной подписки на 5000 токенов, разработчики предлагают 3 платные подписки с расширенным функционалом: цены стартуют с $14,99.
Сделать дипфейк голоса можно и на бесплатном тарифе — количество шаблонов ниже в разы, чем на платных подписках.
VoiceMy
VoiceMy — нейросеть с обширным функционалом. С ее помощью можно редактировать аудиофайлы, создавать музыку, озвучивать тексты и клонировать голос любого человека или обучать собственную модель голоса. Есть платная подписка с расширенными функциями: цены стартуют с $9,99 в месяц.
Wavel
Wavel — нейросеть, заточенная под маркетологов. Помимо генерации и клонирования голоса, ИИ умеет конвертировать текст в аудио и переводить речь на нужные языки.
Разработчики предлагают пробный тариф, но для полноценных ворков этого не хватит.
Цены на платные подписки начинаются с $25 в месяц: чем дороже подписка, тем больше инструментов достанется юзеру.
Resemble AI
Resemble AI — это онлайн-генератор голоса, поддерживающий функцию клонирования. Нейросеть умеет регулировать тон и высоту голоса, добавлять эмоции. Для клонирования голоса необходимо загрузить 3-минутный аудиофайл с исходником. Resemble AI — платный продукт, но есть бесплатная демоверсия, предоставляемая по запросу.
Цены стартую с $9.5 в месяц — максимальный тариф обойдется в $699 ежемесячно.
Как самостоятельно создать аудиодипфейк
Нейросетей, способных клонировать чужие голоса, много. Но действительно ли они способны создать реалистичную цифровую копию? Мы решили самостоятельно сделать аудиодипфейк в одной из описанных нейросетей. Больше всего положительных отзывов в сети было о Voice Changer от ElevenLabs, его мы и выбрали для эксперимента. Предложим нейросети записать небольшой спитч о нашем медиа голосами трех селебрити — Евгения Иванова, Дениса Денисенко и Моргенштерна.
Регистрация
Переходим на официальный сайт нейросети и жмем клавишу «Sign Up» на главной странице.
Зарегистрировать можно через Google-аккаунт или через почту. Мы выберем Гугл-профиль: так проще и быстрее — по окончании нажимаем клавишу «Sign Up».
Далее откроется личный кабинет, а на счет зачислят 10 000 токенов.
Оплата подписки
В AI Voice Changer 7 тарифных планов. Есть и бесплатный, но в нем для создания записи можно использовать только голоса из внутренней библиотеки сервиса. Чтобы сделать аудиодипфейк, мы оплатили тариф Starter — $5 в месяц. За эти деньги сервис предоставляет 30 минут аудиозаписи клонированных голосов и 30 000 кредитов.
К оплате не принимаются российские банковские карты. Поэтому используйте пластик, выпущенный в иностранном банке, или воспользуйтесь вспомогательными сервисами, как это сделали мы.
Загрузка голоса в библиотеку
Для создания дипфейка понадобится исходник — аудиозапись человека, голосом которого нужно записать спитч. Если это медийная персона, получить пример нетрудно. В крайнем случае включите любое интервью или видео на YouTube и запишите звук на телефон.
Чтобы добавить голос в библиотеку AI Voice Changer, нужно:
- В главном меню, расположенном слева, переходим в раздел «Голоса».
- Нажимаем на плюсик, чтобы добавить исходник для клонирования.
- В появившемся меню «Типы голосов для создания» выбираем «Мгновенное клонирование голоса».
- Добавляем голос — загружаем аудиофайл с исходником, присваиваем имя и по желанию добавляем описание. Обязательно ставим галочку, соглашаясь с политикой конфиденциальности и условиями сервиса. Жмем кнопку «Добавить голос».
Создание аудиодипфейка
Чтобы нейросеть записала голосом знаменитости какое-то обращение, нужно заранее подготовить текст или аудиофайл с подходящей записью.
Чтобы клонировать голос, нужно:
- Перейти в раздел «Речь».
- Выбрать формат преобразования — текст в речь или аудиозапись в речь.
- Выбрать в библиотеке голосов нужный исходник.
- Нажать кнопку «Генерация речи».
Чтобы добиться большей схожести «клона» с исходником и избавиться от роботизированного звучания, можно поиграть с настройками голоса. Но мы оставили настройки по умолчанию для всех трех исходников.
Поставленная задача выполнена — аудиодипфейки с голосами Евгения Иванова, Дениса Денисенок и Моргенштерна сделаны. Их спичи, созданные нейросетью, звучат неплохо и местами очень похоже на оригинал. Хотя есть проблемы с интонацией и роботизированным звучанием отдельных слов. Но разработчики AI Voice Changer обещают создать максимально реалистичную цифровую копию голоса с качеством аудио 192 кбит/с в более дорогих тарифных планах.
Заключение
Вот и настало «темное» цифровое будущее, когда нейросети заговорили чужими голосами. Но не стоит паниковать и отказываться от общения в мессенджерах или по телефону. Нейросети пока еще звучат не совсем естественно и неправильно интонируют впредложениях. Поэтому пока еще отличить искусственный интеллект от человека несложно. А что будет дальше — увидим.