Screenlife Тимура Бекмамбетова и разработчик робота-рекрутера «Вера» создали технологию синтеза голоса знаменитостей Статьи редакции
Партнёры планируют использовать искусственные голоса для озвучки книг, рекламы, игр и другого контента.
Screenlife Technologies Тимура Бекмамбетова и Stafory, разработчик HR-сервиса «Робот Вера» на основе искусственного интеллекта, запустили проект Vera Voice, который позволяет синтезировать голос знаменитостей на русском языке. Об этом vc.ru рассказали в Stafory.
Для развития проекта Screenlife Technologies и Stafory создадут совместное предприятие. Доли в нём распределятся поровну.
В основе Vera Voice лежит нейросеть, которая анализирует оригинальный голос и воспроизводит его цифровую копию. Партнёры планируют использовать копии голосов для озвучки рекламы, объявлений, книг, фильмов, музейных гидов, игр и так далее.
Для синтеза голоса достаточно нескольких часов аудиоданных, озвученных обладателем голоса и оцифрованный текст, который он зачитывает. Аудиопоток и текст «выгружаются» в несколько нейронных сетей одновременно, одна — генерирует спектрограмму звука (его визуальное изображение), а вторая — непосредственно звук.
Пример голоса обладателя для нейросети — эталон, к которой она стремится. Копия голоса синтезируется с учётом специфического произношения слов, скорости речи, интонаций и тембра.
Для работы партнёры планируют заключать договоры с обладателями голоса — Vera Voice станет агентом по синтезу его речи. Первый пилот должны запустить в течение месяца.
Компания уже подписала договор на легальное использование голоса сооснователя студии «Кубик в кубе» Руслана Габидуллина для записи аудиокниг, интерактивной рекламы, игр и голосовых открыток. Также Vera Voice ведёт переговоры об использовании её технологий с агентством аудио-коммуникаций Unisound, первые проекты могут появиться в начале 2020 года.
Ещё один инструмент Vera Voice — защита голоса от deep fake и определение факта синтеза голоса. Партнёры обещают защищать интересы обладателей голоса и отслеживать появление голосовых клонов.
Рано или поздно мы будем жить в мире наших цифровых копий и уже сейчас важно найти цивилизованные способы использования искусственного интеллекта. Отлавливать подделки и защищать известных людей от несанкционированного копирования их образов — одна из главных задач нашего проекта.
Stafory занимается разработками на базе искусственного интеллекта. в 2016 году компания представила сервис для подбора сотрудников с технологией распознавания речи «Робот Вера». Среди инвесторов Stafory — Фонд развития интернет-инициатив.
Синтезируем голос ВВП, звоним Лукашенко и заказываем Трампу грузовой самолёт картошки.
Миллионы 40–50 летних мужчин, родившихся в Советском Союзе, ждут ремейк «Гостьи из будущего» и экранизации других приключений Алисы Селезнёвой, Крыса и Весельчака У.
С оригинальными актёрами, уже ушедшими от нас.
Да хотя бы, например, вспомнить Варкрафт 3. Старая озвучка - классическая ("Я получил власть, которая и не снилась моему отцу"), но некоторые актеры уже умерли, в частности, Владимир Вихров, озвучивавший Артаса. Теперь при переиздании и добавлении нескольких фраз им пришлось переозвучивать все - и получилось существенно хуже.
Или фильмы, которые выходили в советские времена с отличным дубляжем, но которые были цензурированы, с какими-то вырезанными фрагментами. Их тоже нужно было переозвучивать целиком, теряя прекрасный советский дубляж.
затея весьма забавная, особенно если она доведёт до "дубляжа" фильмов голосами самих актёров
Дублировать роль, например, Де Ниро, голосом самого Де Ниро, но по-русски и без акцента👍🏻
да, это было бы неплохо, а то голос Альфа и мистера Коломбо уже поднадоел
Будет одна нейросеть генерировать видеоряд с нужным актером, а другая - соответствующий ему голос. Всё это будет интерактивно в реальном времени, сюжет сможет меняться в зависимости от сигналов от зрителей, третья нейросеть будет добавлять характерных деталей. А сам актер будет в это время выступать в подпольном театре, скрываясь от профсоюза нейросетей.
Так вот кто звонил моей родственнице пару лет назад и моим голосом выпросил у нее часть сбережений?
Спорная история с точки зрения авторских прав. Суд может запретить использовать голос, если кто-то из перечисленных в ролике или другие подадут в суд.
Павел, в настоящий момент в мировой практике не существует законов, которые регламентировали или как то ограничивали применение подобных технологий. Своим релизом мы как раз и обозначили направление нашей деятельности. Мы собираемся учитывать мнение обладателей голосов. Более того мы сами выступаем инициаторами подписания соглашений со знаменитостями на использование их синтезированных голосов и вместе с тем работаем над инициативой по созданию нормативной базы для защиты от DeepFake технологий в злонамеренных целях.
А использование цифровой подписи вполне может помочь. Как при звонках, так и при передаче, воспроизведении звуковых файлов.
В свете перехода на голосовую биометрию - можно будет на кого угодно кредиты брать? Круто.
Не хотелось бы расстраивать тех, кто так собирался делать, но именно по этой причине в открытом доступе сервиса не будет:)
А вы думаете что повторить ваш результат более никому в мире не удастся?
Энивей, качество у вашего генератора получилось отличное!
Спасибо за комплимент!
В мире уже удалось, инфа 100%. Послушайте синтез голоса Джо Рогана, он хорош. Я из 6 только в 4 случаях правильно угадала https://fakejoerogan.com/
А в России мы пока первые с таким качеством. Долго ли будем единственными – никто не знает:)
Ещё несколько профессий на грани вымирания (чтение аудиокниг, дубляж фильмов, озвучка рекламы)
Вангую кризис имен для роботов! Мне Олегов, Алис, Вер в жизни хватает. Неужели никто не хочет придумать че нить прикольное?
Меня зовут Епихондрий.
Если что-то пойдет не так,
скажите "Хватит" или "позови Олега"
Ребята круто позаимствовали и присвоили чужую опенсорс технологию. Пруф https://github.com/CorentinJ/Real-Time-Voice-Cloning. Смотрите дату создания репо и дату создания веры войс...
Поддержу, пожалуй, гипотезу, что инфоповод на грани фейка. Очень уж похоже на очередной вирал, а с учётом упоминания Бекмамбетова, наверное, стоит ожидать кина на тему к новому году.
Сильно похоже не на синтез, а на микс из нарезанных семплов, перемежаемых начиткой с придыханием от Собчак.
Конечно. Если бы все работало, то сразу бы сделлаи web-версию. Вводишь любой текст и ВВП тебе его зачитывает. Как это было еще аж в 2010
"В основе Vera Voice лежит нейросеть"
Если у гугла и яндекса за алгоритмами поиска и нейросетями стоят армии асессоров и прочих "чернорабочих", то тут несколько пародистов.
Розыгрыши и игры, так себе польза от технологии. Помню, сотовые операторы такую услугу продавали - не зашло.
Да, мы тоже так думали, но потом, когда стали проводить фокус-группы, поняли, что это один из самых популярных запросов у широкой аудитории. Все хотят получить поздравление от звезды или президента:) При этом помимо этих кейсов существует еще множество бизнес применений: аудиокниги, озвучка фильмов, репортажей, интернет вещей и тд.
Отправь СМС с текстом для записи на короткий номер XXXX, чтобы разыграть друга*
*Стоимость СМС охулиард без учёта НДС
Розыгрыши и игры, так себе польза от технологии.
Ну так и я сначала на компьютере играл, а потом только стал играть в Basic, Asm, Pascal, C, PHP.
Помню, сотовые операторы такую услугу продавали - не зашло.
Вот друг вас пригласит в гости на пиво и предложит КУПИТЬ бутылочку пива у него, тоже, думаю, не зайдет.
РекрутЁр?????? Что за отвратное издевательство над словом? Безграмотно! Минус 10 очков Гриффиндору!
Синтез речи по шаблону уже давно есть, не? Недавно даже редактор подкастов вышел, в котором голос можно через транскрипт редактировать.
Конечно, text-to-speech есть довольно давно. Но вот синтеза голосов знаменитостей на русском языке еще не было:)
а какая разница на каком языке? Технология то одна и таже используется. Как я понял суть технологии от Веры только в том, что в качестве источника используют голос пародиста.
А можно, чтобы голос пел? Например, воссоздать творчество Цоя или Меркьюри?
Мне интересно, как разработчики планируют научить робота понимать текст? А подтекст?
А зачем его понимать? Речь просто об озвучивании чужим голосом готового текста.
Авторы пишут об озвучке художественной литературы. Без понимания текста, подтекстов, смыслов - это будет просто очередная "говорилка". Вот мне и интересно, как они планируют научить робота понимать текст, а не просто воспроизводить, согласно знакам препинания и даже с эмоциональной окраской.
Это отдельная задача - расстановка акцентов и интонаций, может решаться как вручную, так и автоматически. Последнее, самое сложное, вы правы, но и Москва не сразу строилась, пока вот могут голос синтезировать более-менее похоже, уже неплохо.
Я к тому, что интонационных оттенков миллион, и чтобы робот мог озвучить "художку" он должен текст понимать. Ну или проживать, если хотите. Настраивать оттенки вручную будет дорого. А для технической озвучки - да, самое то (статьи, русские закадры к видео и т.д.). Это роботы уже делают неплохо.
Использовать голос Пу в рекламе продукта - оттолкнуть сколько там процентов потенциальных клиентов?
Вот чей голос стоит "оцифровать" для озвучки книг.
Пелевин в "Generation П" предсказал, что вся политика будет в нейросетях происходить и стримиться в телевизоры
Чем хороша команда Stafory, это то что они умеют впаривать абсолютную хрень. Собственно, это и есть предпринимательство в действии.