«Мама, это не я»: Как я клонировал свой голос нейросетью за 5 минут и заставил его говорить на китайском (без акцента).

Привет, VC! Меня зовут Максим.

Мы привыкли, что синтез речи — это убогий механический голос робота-навигатора, который неправильно ставит ударения. Но недавно я наткнулся на технологию, от которой у меня натурально пошли мурашки по коже.

Я студент, развиваю свой проект NeuroHelper, и часто тестирую разные инструменты. Но сервис ElevenLabs меня шокировал. Я загрузил в него всего 60 секунд записи своего голоса (просто начитал кусок лекции на диктофон), и через минуту получил свою полную цифровую копию.

«Мама, это не я»: Как я клонировал свой голос нейросетью за 5 минут и заставил его говорить на китайском (без акцента).

Нейросеть скопировала не просто тембр. Она украла мои паузы, придыхания, манеру тянуть гласные и даже легкую хрипотцу. Я решил проверить возможности на максимум и заставил своего «клона» читать текст на китайском и испанском. Результат? Мой голос звучал как у носителя языка, абсолютно без моего русского акцента.

Озвучка видео без микрофона. Вы записали ролик, но звук запоролся (шум улицы, ветер). Переозвучивать лень. Вы просто скармливаете текст нейросети, и она накладывает ваш чистый голос.
Масштабирование контента. Вы ведете YouTube-канал. Теперь вы можете выпустить тот же ролик на английском, немецком и хинди, не нанимая дикторов.
Чтение книг. Можно озвучить любимую книгу голосом своей бабушки (с её согласия, конечно) для детей.

Но есть и темная сторона. Мошенники уже используют это. Поэтому важно знать, как это работает, чтобы не попасться.

Я написал подробнейший технический гайд: какие настройки крутить, как убрать шумы из исходника и как пользоваться сервисом бесплатно (там есть лимиты).👉 Читать гайд: Как клонировать свой голос и озвучить любой текст (ElevenLabs)

Заходите, тестируйте (только этично!) и пишите в комментах — отличили бы вы фейк от реальности?

«Мама, это не я»: Как я клонировал свой голос нейросетью за 5 минут и заставил его говорить на китайском (без акцента).

В чем «соль» и почему это страшно круто?

Где это реально применимо (кроме пранков):