реклама
разместить

Специалисты создали нейросеть для создания поддельных голосов

Алгоритм умеет имитировать голос говорящего по фрагменту стороннего аудиофайла.

Группа разработчиков создала алгоритм для синтеза текста в речь (text-to-speech; TTS) на основе нейросетевых моделей Tacotron 2 и WaveNet, который умеет создавать голос, имитирующий говорящего по фрагменту стороннего аудиофайла. Результаты работы опубликованы на arxiv.org в июне 2018 года, открытый исходный код размещён на площадке GitHub.

Для работы алгоритма нужно два аудиофайла: один с примером голоса, который необходимо скопировать, и второй с фразой, которую этим голосом нужно произнести. После этого алгоритм почти в реальном времени преобразует голос из второго аудиофайла, делая его похожим на голос говорящего из первого файла.

Пример работы алгоритма
3030
реклама
разместить
53 комментария

Комментарий недоступен

26

627 форков, однако...

1

Хорошая система биометрии снабжается системой антиспуфинга. Синтез - один из видов атак, причем не самый сложный (даже самый продвинутый). Просто не пройдет. К тому же качество синтеза в предложенной системе не ахти. Они просто мультиспикерную TTS обучили, обусловленную на эмбеддинги спикеров (векторы признаков голоса) и новых спикеров добавляют, получаю новый эмбеддинг из образца. Это плохо работает. Есть ситемы voice conversion, они лучше работают. Но там не синтез, а конверсия конкретной записи с голосом одного диктора в такую же запись с голосом другого. Хотя ничего не мешает сначала синтезировать одним голосом, а потом провести конверсию в другой (образец).

1

Возможное применение в дубляже фильмов. Берем оригинальную дорожку, накладываем на дубляж. Получаем дубляж с голосом оригинального актера.

7

+другая нейросеть подправляет липсинк, чтобы локализаторам дать полную свободу.

1

Можно и просто генерировать хорошие голоса, а актеров полностью создавать с нуля. Это огромный плюс для кинематографа будет.

Прекрасно, я считаю! Если будет возможно - это же будет очень круто! Решится проблема хейта дубляжей и желания слушать с оригинальным голосом актера

Раскрывать всегда
Есть всё необходимое, но цена от $599 — смущает: первые впечатления от iPhone 16e

Журналисты отмечают хорошее время работы на одном заряде и неплохую заднюю камеру, но недовольны отсутствием MagSafe.

Источник: Celso Bulgatti / Cnet
44
33
22
реклама
разместить
День 1103: с блокировки активов российских инвесторов в ЕС прошло три года

Собираем новости, события и мнения о рынках, банках и реакциях компаний.

Источник фото: Unsplash
55
11
11
Италия vs. Россия: Два подхода к промышленному дизайну два мира — две философии

Вы когда-нибудь задумывался, почему итальянский дизайн выглядит так стильно, а российский — так практично? Я вот задумалась. И чем больше копаюсь в этом, тем яснее вижу: тут дело не только в культуре, но и в том, как устроены сами рынки. Давай разберёмся вместе.

10 лет был предпринимателем: Я закрыл 2 своих компании и устроился в 38 лет на работу в IT.

Обычно все рассказывают, как ушли из найма и открыли многомиллионный бизнес, а тут всё шиворот-навыворот. Но это отнюдь не история провала, прочтёшь и сделаешь выводы сам...

10 лет был предпринимателем: Я закрыл 2 своих компании и устроился в 38 лет на работу в IT.
2727
22
11
11
Как я взбодрил Яндекс и повысил видимость бизнеса на Картах…с помощью публичной огласки

Решил подключить приоритетное размещение для московского салона красоты. Предварительно подготовился: SEO настроили, отзывы собрали, разделы заполнили по максимуму. Ждём наплыва клиентов.

Но вместо того, чтобы наблюдать бум звонков, я обнаружил карточку студии по запросу «салон красоты» при приближении на 50-60 метров.

1818
88
11
11
ИИ-переводчик для видеозвонков: будущее уже здесь, но оно пока немного запинается

Если всё реально так гладко, то Google и Microsoft уже должны настороженно поглядывать в сторону Talo. Если же сервис будет переводить в духе «я твой дом труба шатал», то хотя бы поржём. В любом случае, следим за развитием!

1010
11
Сайт для поставщика медицинского оборудования «Асвомед»
Сайт для поставщика медицинского оборудования «Асвомед»

В этом кейсе расскажем, как мы разработали сайт, обеспечили плавный переход со старого сайта на новый без потерь в выдаче, улучшили структуру сайта и сделали его современным и эффективным для бизнеса.

55
11
Анализ резюме за 10 секунд с помощью AI

________________
Время настройки бота: 1 минута
Время анализа резюме: 10 секунд
________________
▪ — Настраиваем ИИ бота
▪ — Прописываем промт
▪ — Выгружаем требования к вакансии
▪ — Выгружаем резюме кандидатов, которым отправили оффер|
▪ — Выгружаем резюме и получаем результат

Анализ резюме за 10 секунд с помощью AI
33
22
11
[]