OpenAI выпустил инструмент для клонирования голоса

Расскажу, где уже применяется Voice Engine, зачем и кому может быть полезна технология, последствия развития (в том числе - из-за угрозы роста дипфейков и мошенничества), и когда можно будет ее попробовать самостоятельно.

Подписывайтесь на мой канал: продуктовые штуки одной строкой

OpenAI развивает голосовой движок, но делает это, как заявляет компания, очень ответственно. Voice Engine находится в разработке около двух лет и позволяет пользователям загружать 15-секундный образец голоса для создания синтетической копии. OpenAI создала Voice Engine ещё в 2022 году и с тех пор использовала её для "внутренних" продуктов.

Модель Voice Engine лежит в основе «чтения вслух» в ChatGPT, а Spotify использует его с сентября для дублирования подкастов известных ведущих на разные языки.

В блоге OpenAI <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Fblog%2Fnavigating-the-challenges-and-opportunities-of-synthetic-voices&postId=1100929" rel="nofollow noreferrer noopener" target="_blank">есть примеры </a>референтного голоса и синтетического, созданного на его основе.
В блоге OpenAI есть примеры референтного голоса и синтетического, созданного на его основе.

Подробности продукта

Ожидается, что стоимость Voice Engine будет $15 за 1 млн символов, или ~162 500 слов. Что примерно 18 часов аудио, или чуть меньше $1 за час. Это дешевле, чем цена одного из наиболее популярных конкурентов — ElevenLabs ($11 за 100 тыс. символов в месяц).

Voice Engine не предполагает управления для регулировки тона, высоты или частоты голоса. Однако любая выразительность 15-секундного голосового образца отразиться на результате (например, если вы наговорите возбужденным тоном, полученный синтетический голос будет звучать возбужденно).

Это новая технология?

Нет. Ряд стартапов уже много лет разрабатывают продукты для клонирования голоса: от ElevenLabs до Replica Studios, Papercup, Deepdub и Respeecher. То же самое можно сказать и о технологических гигантах: Amazon, Google и Microsoft.

Для чего может использоваться?

Voice Engine можно использовать во благо в различных отраслях. Вот далеко не исчерпывающий список возможных применений:

  • Помощь в чтении детям и людям, которые не могут читать, с помощью естественно звучащих, эмоциональных голосов, представляющих более широкий круг говорящих, чем это возможно при использовании предустановленных голосов.
  • Перевод контента правообладателями, например видео и подкастов, чтобы авторы и компании могли обращаться к большему количеству людей по всему миру, свободно и своим собственным голосом. А также полезна компаниям, для охвата различных географических рынков. Например, компания Dimagi создает инструменты для медицинских работников из самых разных стран, позволяющие им оказывать различные услуги, например, консультации кормящим матерям.
  • Помощь людям (пациентам), которые не могут говорить. Например, для людей с заболеваниями, влияющими на речь, и людей, страдающих от дегенеративных нарушений речи.

Как насчет плагиата? Этика и дипфейки

OpenAI осознает важность проблемы и требует, чтобы пользователи получили «явное согласие» от людей, чьи голоса клонируются, и явно указывали, какие голоса сгенерированы ИИ. Также просят не использовать голоса несовершеннолетних, умерших людей или политических деятелей.

Есть опасения, что злоумышленники попытаются повлиять на выборы с помощью клонирования голоса. И они не беспочвенны: в январе в телефонной кампании использовался фальшивый президент Байден, чтобы отвратить граждан Нью-Гэмпшира от голосования, что побудило Федеральную комиссию по связи США принять меры, чтобы сделать подобные кампании незаконными.

Помимо запрета дипфейков на уровне политики (который действует для всех продуктов компании), какие шаги предпринимает OpenAI для предотвращения неправомерного использования Voice Engine?

Во-первых, Voice Engine сейчас доступен только небольшой группе партнеров, около 10 компаний. OpenAI отдает приоритет использованию технологии в продуктах с низким риском ущерба и социально ответственным. Также партнеры должны четко сообщить своей аудитории, что голоса, которые они слышат, генерируются искусственным интеллектом.

В число первых пользователей Voice Engine входят, например, компании Livox и Lifespan, которые используют Voice Engine для создания голосов для людей с нарушениями речи и ограниченными возможностями, а Dimagi создает инструмент на основе Voice Engine, чтобы предоставлять обратную связь медицинским работникам на их родном языке.

Во-вторых, созданные с помощью Voice Engine клоны помечаются водяными знаками с использованием разработанной OpenAI технологии, а также ведется упреждающий мониторинг использования. Аналогично OpenAI маркирует изображения, создаваемые ChatGPT и DALL·E 3.

«Если есть аудиоклип, нам очень легко просмотреть этот клип и определить, что он был создан нашей системой»

Харрис, член команды разработчиков OpenAI

В-третьих, OpenAI планирует предоставить членам своей экспертной группы доступ к Voice Engine для выявления вредоносного использования. Некоторые эксперты утверждают, что эта группа экспертов недостаточно полная, и что поставщики обязаны разработать инструменты для защиты от вреда, который может нанести их ИИ.

Как это скажется на развитии технологий в мире?

Не нужно быть большим техническим экспертом, чтобы понять, что это скажется самым существенным образом. Поэтому OpenAI внедряет технологию медленно и предлагает

  • Постепенный отказ от голосовой аутентификации как меры безопасности для доступа к банковским счетам и другой конфиденциальной информации.
  • Создание политики защиты использования голосов людей в ИИ.
  • Обучение общественности пониманию возможностей и ограничений технологий ИИ, включая возможность введения в заблуждение контентом, созданным ИИ.
  • Ускорение разработки и внедрения методов отслеживания происхождения аудиовизуального контента, чтобы всегда было понятно, взаимодействуете ли вы с реальным человеком или с ИИ.

Когда мы сможем попробовать?

Дата публичного релиза пока не объявлена, что дает компании время отреагировать на то, как модель используется и кто злоупотребляет ею.

В настоящее время компания не хочет брать на себя обязательства и выпускать инструмент для более широкой группы разработчиков. OpenAI дает такой ответ: в зависимости от того, как пройдет предварительный просмотр и как общественность воспримет Voice Engine.

Пожалуйста, поддержите меня, поставьте лайк!

22
Начать дискуссию