Специалисты создали нейросеть для создания поддельных голосов Материал редакции

Алгоритм умеет имитировать голос говорящего по фрагменту стороннего аудиофайла.

Группа разработчиков создала алгоритм для синтеза текста в речь (text-to-speech; TTS) на основе нейросетевых моделей Tacotron 2 и WaveNet, который умеет создавать голос, имитирующий говорящего по фрагменту стороннего аудиофайла. Результаты работы опубликованы на arxiv.org в июне 2018 года, открытый исходный код размещён на площадке GitHub.

Для работы алгоритма нужно два аудиофайла: один с примером голоса, который необходимо скопировать, и второй с фразой, которую этим голосом нужно произнести. После этого алгоритм почти в реальном времени преобразует голос из второго аудиофайла, делая его похожим на голос говорящего из первого файла.

Пример работы алгоритма
{ "author_name": "Татьяна Боброва", "author_type": "editor", "tags": ["\u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438"], "comments": 51, "likes": 35, "favorites": 109, "is_advertisement": false, "subsite_label": "services", "id": 80761, "is_wide": true, "is_ugc": false, "date": "Tue, 27 Aug 2019 16:46:08 +0300", "is_special": false }
0
{ "id": 80761, "author_id": 283507, "diff_limit": 1000, "urls": {"diff":"\/comments\/80761\/get","add":"\/comments\/80761\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/80761"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 200396, "last_count_and_date": null }
51 комментарий
Популярные
По порядку
Написать комментарий...
26

Голосовой биометрии продолжать доверять?

Ответить
1

627 форков, однако...

Ответить
0

Мы постоянно так балуемся при разработке. Тут же люди еще обернули это все в визуальный интерфейс (поделка уровня 3го курса). Это баловство. Тупиковый вариант. Интересный эффект при добавлении нового эмбеддинга по образцу в мультиспикерной системе. Тема активно продвигается - быстрое добавление нового диктора в TTS, но такой способ ущербен. Много артефактов, к тому же он частично воспроизводит только тембр голоса. Манера речи, дефекты - не передаются.

Ответить
0

Наверняка дело в размере данных для обучения. Если потренировать на месяце-двух прослушек телефонных разговоров - будет интереснее. Благодаря закону Яровой - будет в доступе

Ответить
0

Голос в телефонном канале обычно крайне низкого качества. Обучать на таком TTS - сомнительно.

Ответить
0

Зависит от цели! Если цель - ввести в заблуждение при разговоре по телефону, то - самое оно. А про качество - есть HD кодеки в сотовой связи.

Ответить
1

Хорошая система биометрии снабжается системой антиспуфинга. Синтез - один из видов атак, причем не самый сложный (даже самый продвинутый). Просто не пройдет. К тому же качество синтеза в предложенной системе не ахти. Они просто мультиспикерную TTS обучили, обусловленную на эмбеддинги спикеров (векторы признаков голоса) и новых спикеров добавляют, получаю новый эмбеддинг из образца. Это плохо работает. Есть ситемы voice conversion, они лучше работают. Но там не синтез, а конверсия конкретной записи с голосом одного диктора в такую же запись с голосом другого. Хотя ничего не мешает сначала синтезировать одним голосом, а потом провести конверсию в другой (образец).

Ответить
0

Атакующий говорит фразу - система преобразует его голос. Было в какой то фантастике

Ответить
6

Возможное применение в дубляже фильмов. Берем оригинальную дорожку, накладываем на дубляж. Получаем дубляж с голосом оригинального актера.

Ответить
1

+другая нейросеть подправляет липсинк, чтобы локализаторам дать полную свободу.

Ответить
0

Можно и просто генерировать хорошие голоса, а актеров полностью создавать с нуля. Это огромный плюс для кинематографа будет.

Ответить
0

Это уже следующий этап.

Ответить
0

Прекрасно, я считаю! Если будет возможно - это же будет очень круто! Решится проблема хейта дубляжей и желания слушать с оригинальным голосом актера

Ответить
6

Пусть моей маме позвонит Киркоров и лично поздравит ее с Днем Рождения, хехе

Ответить
0

Заказываю, Под Новый год оформить?

Ответить
0

точно! я же помню - где то это видел!

Ответить
2

Ситуация ни капельки не страшная, а вполне прогнозируемая. И вместо того, чтобы закрывать глаза на это, и делать тупые мувы из разряда "мы примем закон, который запретит это и все будет хорошо", нужно искать решения.

На мой взгляд пора усиленно работать в области электронной подписи, где каждый материал может быть подписан личной подписью. Других способов увеличить доверие к источнику я пока не вижу. Таким образом появится и личная ответственность за публикацию. А кроме ответственности появится и защита информации. Можно будет легко отличить фейк от реальной информации. При этом анонимные источники тоже должны существовать, но к ним будет доверие гораздо ниже.

С голосом тоже самое - должна произойти ситуация, вроде "голос поступил из неизвестного источника и не принадлежит вашему сыну. Пометить как спам?"

И это хорошо бы уже сейчас начинать внедрять в браузеры и операционные системы.

Ответить
1

Кстати, для ещё большей озабоченности по этому вопросу стоит погуглить ещё тему gpt-2 и fake news. Нас скоро накроет волна всякого дерьма, которое будет невозможно оценить объективно, так как генерировать будет проще, чем опровергать.

Ответить
0

Так нет же проблемы то никакой. Поступает информация, а не голос. Доверять ей или нет - давно уже есть решения.

Ответить
0

Электронная подпись.

Ответить
0

А я о чем?

Ответить
0

Я не очень понял, значит. В контексте темы с подменой голоса. Понятно, что обычный телефонный разговор не подпишешь (сейчас говорим о том, что есть) и подмена голоса воспринимается как "подпись", что сообщаемой информации "мам/пап занеси тому дяде денег" можно верить.

Ответить
0

не доверяй Ж) вот и все решение

Ответить
0

Если бы все так было просто. Помните историю с торговым центром в Кемерово и пранком? Отлично зашло.
А теперь представьте, что вы сидите в стеклянном куполе и все источники информации говорят вас о том, что началась война, например, и человечество было уничтожено. Какие у вас есть способы понять, что это лишь эксперимент лично над вами?

Ответить
0

Звонок другу?

Ответить
0

А если друг в таком же пузыре?

Ответить
0

Нет, над ним же не проводится эксперимент. Значит он не в пузыре а с пузырем в соседнем баре.

Ответить
0

Так мы уже все давно в пузыре, если уж на то пошло. А наши родители в своем собственном. Фиг убедишь, что мир изменился, а звонить могут могут не только важные люди, но и мошенники, роботы, инопланетяне, Олег Тиньков... )))

Ответить
0

Блокчейн?

Ответить
0

как вы это говно в любое место суете?

Ответить
–1

В мире, где любое аудио и видео можно подделать - это единственное решение, не?

Ответить
1

Программа интересная, а ситуация страшная...

Ответить
1

Страшная она только для тех, кто почему-то не верил, что технологии рано или поздно дойдут до этого.

Ответить
1

Ждём новые пранки от Вована и Лексуса.

Ответить
1

Будут притворяться уже главами государств? : )

Ответить
1

Где протестировать?

Ответить
1

Дык это давным-давно мошенниками применяется: «Мам (пап) я попал в аварию...». Звонят, снимают фразу по телефону, потом обрабатывают и перезванивают уже с искажением.

Ответить
0

"Какой же вы христианин, если вы не читали трудов святого преподобного отца Пигидия?"

Ответить
0

теперь ещё более похоже

Ответить
1

Кто там сдал свои голоса в сбербанк? Срочно заберите назад!

Ответить
0

На самом деле тут вариантов использования мошенниками больше чем использования для хороших целей. Это как возможность подделывать подпись и так далее.
Потом трудно доказать будет человеку, что не он что то сказал. Тем более подмену номера делают на раз.

Ответить
0

Следующий шаг - создание виртуальной маски лица.
Смотришь в камеру, а специальный софт преобразовывает твое лицо в необходимое для прохождения биометрии.
А слепки отпечатков пальцев появились с выходов iPhone 5 для его разблокировки.

Ответить
0

уже же есть подделка лица

Ответить
0

Именно таким способом?
Я знаю, что маски реальные 3D делали. И их сеть распознавала, как оригинал.

Ответить
0

ну на запись легко накладывают в онлайне не в курсе

Ответить
0

Жаль, презентация совсем невнятная - что? Где кто? Куда слушать... Не ощутить крутости пока, подождём.

Ответить
0

Я думаю, это жопа((

Ответить
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "Article Branding", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cfovx", "p2": "glug" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Баннер в ленте на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "disable": true, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ] { "page_type": "default" }