Специалисты создали нейросеть для создания поддельных голосов Материал редакции

Алгоритм умеет имитировать голос говорящего по фрагменту стороннего аудиофайла.

Группа разработчиков создала алгоритм для синтеза текста в речь (text-to-speech; TTS) на основе нейросетевых моделей Tacotron 2 и WaveNet, который умеет создавать голос, имитирующий говорящего по фрагменту стороннего аудиофайла. Результаты работы опубликованы на arxiv.org в июне 2018 года, открытый исходный код размещён на площадке GitHub.

Для работы алгоритма нужно два аудиофайла: один с примером голоса, который необходимо скопировать, и второй с фразой, которую этим голосом нужно произнести. После этого алгоритм почти в реальном времени преобразует голос из второго аудиофайла, делая его похожим на голос говорящего из первого файла.

Пример работы алгоритма
Редактор новостей vc.ru. Пишите письма на tatyana@vc.ru
{ "author_name": "Таня Боброва", "author_type": "editor", "tags": ["\u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438"], "comments": 51, "likes": 35, "favorites": 113, "is_advertisement": false, "subsite_label": "services", "id": 80761, "is_wide": true, "is_ugc": false, "date": "Tue, 27 Aug 2019 16:46:08 +0300", "is_special": false }
Объявление на vc.ru
0
51 комментарий
Популярные
По порядку
Написать комментарий...
26

Голосовой биометрии продолжать доверять?

Ответить
1

627 форков, однако...

Ответить
0

Мы постоянно так балуемся при разработке. Тут же люди еще обернули это все в визуальный интерфейс (поделка уровня 3го курса). Это баловство. Тупиковый вариант. Интересный эффект при добавлении нового эмбеддинга по образцу в мультиспикерной системе. Тема активно продвигается - быстрое добавление нового диктора в TTS, но такой способ ущербен. Много артефактов, к тому же он частично воспроизводит только тембр голоса. Манера речи, дефекты - не передаются.

Ответить
0

Наверняка дело в размере данных для обучения. Если потренировать на месяце-двух прослушек телефонных разговоров - будет интереснее. Благодаря закону Яровой - будет в доступе

Ответить
0

Голос в телефонном канале обычно крайне низкого качества. Обучать на таком TTS - сомнительно.

Ответить
0

Зависит от цели! Если цель - ввести в заблуждение при разговоре по телефону, то - самое оно. А про качество - есть HD кодеки в сотовой связи.

Ответить
1

Хорошая система биометрии снабжается системой антиспуфинга. Синтез - один из видов атак, причем не самый сложный (даже самый продвинутый). Просто не пройдет. К тому же качество синтеза в предложенной системе не ахти. Они просто мультиспикерную TTS обучили, обусловленную на эмбеддинги спикеров (векторы признаков голоса) и новых спикеров добавляют, получаю новый эмбеддинг из образца. Это плохо работает. Есть ситемы voice conversion, они лучше работают. Но там не синтез, а конверсия конкретной записи с голосом одного диктора в такую же запись с голосом другого. Хотя ничего не мешает сначала синтезировать одним голосом, а потом провести конверсию в другой (образец).

Ответить
0

Атакующий говорит фразу - система преобразует его голос. Было в какой то фантастике

Ответить
6

Возможное применение в дубляже фильмов. Берем оригинальную дорожку, накладываем на дубляж. Получаем дубляж с голосом оригинального актера.

Ответить
1

+другая нейросеть подправляет липсинк, чтобы локализаторам дать полную свободу.

Ответить
0

Можно и просто генерировать хорошие голоса, а актеров полностью создавать с нуля. Это огромный плюс для кинематографа будет.

Ответить
0

Это уже следующий этап.

Ответить
0

Прекрасно, я считаю! Если будет возможно - это же будет очень круто! Решится проблема хейта дубляжей и желания слушать с оригинальным голосом актера

Ответить
6

Пусть моей маме позвонит Киркоров и лично поздравит ее с Днем Рождения, хехе

Ответить
0

Заказываю, Под Новый год оформить?

Ответить
0

точно! я же помню - где то это видел!

Ответить
2

Ситуация ни капельки не страшная, а вполне прогнозируемая. И вместо того, чтобы закрывать глаза на это, и делать тупые мувы из разряда "мы примем закон, который запретит это и все будет хорошо", нужно искать решения.

На мой взгляд пора усиленно работать в области электронной подписи, где каждый материал может быть подписан личной подписью. Других способов увеличить доверие к источнику я пока не вижу. Таким образом появится и личная ответственность за публикацию. А кроме ответственности появится и защита информации. Можно будет легко отличить фейк от реальной информации. При этом анонимные источники тоже должны существовать, но к ним будет доверие гораздо ниже.

С голосом тоже самое - должна произойти ситуация, вроде "голос поступил из неизвестного источника и не принадлежит вашему сыну. Пометить как спам?"

И это хорошо бы уже сейчас начинать внедрять в браузеры и операционные системы.

Ответить
1

Кстати, для ещё большей озабоченности по этому вопросу стоит погуглить ещё тему gpt-2 и fake news. Нас скоро накроет волна всякого дерьма, которое будет невозможно оценить объективно, так как генерировать будет проще, чем опровергать.

Ответить
0

Так нет же проблемы то никакой. Поступает информация, а не голос. Доверять ей или нет - давно уже есть решения.

Ответить
0

Какие?)

Ответить
0

Электронная подпись.

Ответить
0

А я о чем?

Ответить
0

Я не очень понял, значит. В контексте темы с подменой голоса. Понятно, что обычный телефонный разговор не подпишешь (сейчас говорим о том, что есть) и подмена голоса воспринимается как "подпись", что сообщаемой информации "мам/пап занеси тому дяде денег" можно верить.

Ответить
0

не доверяй Ж) вот и все решение

Ответить
0

Если бы все так было просто. Помните историю с торговым центром в Кемерово и пранком? Отлично зашло.
А теперь представьте, что вы сидите в стеклянном куполе и все источники информации говорят вас о том, что началась война, например, и человечество было уничтожено. Какие у вас есть способы понять, что это лишь эксперимент лично над вами?

Ответить
0

Звонок другу?

Ответить
0

А если друг в таком же пузыре?

Ответить
0

Нет, над ним же не проводится эксперимент. Значит он не в пузыре а с пузырем в соседнем баре.

Ответить
0

Так мы уже все давно в пузыре, если уж на то пошло. А наши родители в своем собственном. Фиг убедишь, что мир изменился, а звонить могут могут не только важные люди, но и мошенники, роботы, инопланетяне, Олег Тиньков... )))

Ответить
0

Блокчейн?

Ответить
0

как вы это говно в любое место суете?

Ответить
–1

В мире, где любое аудио и видео можно подделать - это единственное решение, не?

Ответить
1

Программа интересная, а ситуация страшная...

Ответить
1

Страшная она только для тех, кто почему-то не верил, что технологии рано или поздно дойдут до этого.

Ответить
1

Ждём новые пранки от Вована и Лексуса.

Ответить
1

Будут притворяться уже главами государств? : )

Ответить
1

Где протестировать?

Ответить
1

Дык это давным-давно мошенниками применяется: «Мам (пап) я попал в аварию...». Звонят, снимают фразу по телефону, потом обрабатывают и перезванивают уже с искажением.

Ответить
0

"Какой же вы христианин, если вы не читали трудов святого преподобного отца Пигидия?"

Ответить
0

теперь ещё более похоже

Ответить
1

Кто там сдал свои голоса в сбербанк? Срочно заберите назад!

Ответить
0

На самом деле тут вариантов использования мошенниками больше чем использования для хороших целей. Это как возможность подделывать подпись и так далее.
Потом трудно доказать будет человеку, что не он что то сказал. Тем более подмену номера делают на раз.

Ответить
0

Следующий шаг - создание виртуальной маски лица.
Смотришь в камеру, а специальный софт преобразовывает твое лицо в необходимое для прохождения биометрии.
А слепки отпечатков пальцев появились с выходов iPhone 5 для его разблокировки.

Ответить
0

уже же есть подделка лица

Ответить
0

Именно таким способом?
Я знаю, что маски реальные 3D делали. И их сеть распознавала, как оригинал.

Ответить
0

ну на запись легко накладывают в онлайне не в курсе

Ответить
0

Жаль, презентация совсем невнятная - что? Где кто? Куда слушать... Не ощутить крутости пока, подождём.

Ответить
0

Я думаю, это жопа((

Ответить

Комментарии

null