«Выбирали корпоративные цвета и шрифты — пора задуматься и о голосе»: зачем бизнес «нанимает» синтезаторы речи

Виртуальные голоса научились «плакать», имитировать акценты и адаптироваться под стили текстов. С их помощью компании исправляют оговорки актёров в кино, персонализируют рекламу, озвучивают игры и приложения. Как развивается рынок ИИ-голосов — в пересказе MIT Technology Review.

Синтезированную речь нередко используют мошенники, например, для автоматических звонков и спама. Несмотря на это, бизнес не теряет интереса к технологии.

По мнению издания, использовать искусственные голоса проще и дешевле, чем нанимать актёров. Также глубокое обучение помогает создавать ботов с естественными характеристиками речи:

  • «Роботы» делают присущие человеку вдохи и паузы.
  • Выражают эмоции.
  • Меняют манеру изложения в зависимости от жанра текста.

Разработчики создают голоса для цифровых устройств, колл-центров и видеоигр. Сиэтлский стартап WellSaid Labs, например, специализируется на озвучке обучающих роликов. Недавно компания выпустила восемь мужских и женских голосов для разных задач — среди них:

  • Тобин — «энергичный и проникновенный, хороший рассказчик».
  • Пейдж — «голос спокойный и выразительный, настраивает на размышление».
  • Ава — «учтивая, уверенная в себе, подойдёт для продаж».
Анонс новых ИИ-голосов WellSaid Labs: «Вашим историям нужен идеальный рассказчик, и WellSaid Studio готова помочь»
Анонс новых ИИ-голосов WellSaid Labs: «Вашим историям нужен идеальный рассказчик, и WellSaid Studio готова помочь»

За основу каждого WellSaid Labs берёт голоса реальных актёров и продаёт лицензии на синтезированные копии. Покупателю достаточно загрузить текст в программу, чтобы бот его озвучил.

Как технологии глубокого обучения помогают рынку

Компании давно используют синтез речи, но популярные голоса — в том числе Siri и Alexa — звучат неестественно, считает MIT Technology Review. Чтобы улучшить их, требуется время и человек: именно он должен задать ритм, а также определить интонацию и произношение.

Вместо этого разработчики используют алгоритмы: «скармливают» ботам несколько часов аудио, и те самостоятельно обучаются и определяют шаблоны речи. Сервис WellSaid Labs использует две основные модели технологии:

  • Первая определяет общие характеристики текста и предполагает, какими будут акцент, тональность и тембр виртуального актёра.
  • Вторая добавляет детали: анализирует, где имитировать вдох и как голос будет резонировать в пространстве.

Однако в живой речи человек эмоционирует, сбивается и может произнести одну и ту же реплику по-разному. Поэтому, чтобы синтезированный голос звучал убедительно, алгоритму нужно обработать множество аудиозаписей от разных актёров. На это, по словам журнала, могут уйти недели.

Примеры ИИ-голосов WellSaid Labs

Повысить узнаваемость и персонализировать рекламу: зачем бизнесу ИИ-голоса

Бренды внедряют голосовых помощников в корпоративные приложения, «умные» колонки, автомобили и дома. Пандемия только повысила спрос: виртуальное общение стало основным способом взаимодействия бизнеса с клиентами во время карантина.

Однако фирмы всё реже хотят использовать унифицированные голоса — вроде тех, что предлагают Google, Apple и Amazon.

Голос ресторанов Pizza Hut должен отличаться от голосов пиццерий Domino’s Pizza и Papa John’s. Он — часть айдентики бренда.

Компании ведь выбирают корпоративные цвета, шрифты. Пора задуматься и о фирменном звучании.

Рупал Патель

, основательница разработчика ИИ-голосов VocaliD

Раньше компаниям приходилось для каждого рынка нанимать разных актёров для озвучки ботов. Теперь технологии позволяют им использовать всего один голос и переключаться между акцентами и языками.

Благодаря этому стриминговые платформы могут адаптировать рекламу под регионы, изменяя не только характеристики голоса, но и содержание: например, рассказывать зрителю из Торонто, какой местный паб продаёт рекламируемый напиток.

Разработчик голосов для «умных» помощников и промороликов Resemble AI уже работает над запуском персонализированных аудиореклам для Spotify и Pandora.

Внедряет новые ИИ-технологии также развлекательно-игровая индустрия. Британский стартап Sonantic разработал алгоритм, который научился наделять цифровые голоса эмоциями: они смеются, плачут, шепчут и кричат.

Sonantic демонстрирует синтезированные голоса, которые использует в видеоиграх

Компания работает с производителями видеоигр и анимационными студиями и отмечает, что раньше многие из них использовали синтезированные голоса лишь на стадии разработки. Во время постпроизводства они заменяли ИИ реальными актёрами.

Сейчас, говорит Sonatic, они всё чаще используют искусственные голоса и в итоговых версиях игр. Правда, пока что для персонажей с меньшим количеством реплик.

Компании вроде Resemble AI также сотрудничают с кино- и телекомпаниями: последние заменяют с помощью ИИ неправильно произнесённые актерами фрагменты.

Как будет развиваться синтез речи и потеряют ли актёры работу

Несмотря на интерес к рынку и его рост, разработчикам по-прежнему предстоит решить ряд проблем, пишет издание:

  • Пока что они не могут управлять ИИ-голосом так же свободно, как режиссёр направляет актёра.
  • Со временем человек замечает «искусственность», даже если голос звучит реалистично. Это касается продолжительных записей — например, аудиокниг и подкастов.

Поэтому истинное развитие синтеза речи впереди, считает основатель Resemble AI Зохайб Ахмед. Так, по его словам, было и с технологией CGI: раньше с её помощью раскрашивали объекты, а теперь — создают «целые миры».

Не заменит искусственный интеллект и актёров: с длинными экспрессивными и нестандартными текстами пока что лучше справляется человек, считает журнал. К тому же именно актёр предоставляет алгоритму исходные данные для обучения.

Основная цель индустрии — не заменить человека, а открыть принципиально новые возможности.

Например, использовать синтез речи, чтобы быстро адаптировать образовательные онлайн-программы для аудиторий из разных культурно-социальных слоёв.

Рупал Патель, основательница разработчика ИИ-голосов VocaliD

Однако профессионалы боятся потерять не работу, а деньги и уважение, говорит представитель профсоюза актёров США SAG-AFTRA. Они полагают, что компании урежут гонорары и станут использовать их голос без разрешения.

Последнее стало предметом недавнего иска против TikTok. По словам канадской актрисы Бев Стэндинг, приложение использует копию её голоса во встроенном генераторе озвучки.

С подобным столкнулась и американская актриса Сьюзен Беннетт. Именно её голосом говорила первая версия Siri в США, хотя сама она узнала об этом лишь после запуска функции — от друзей.

Изначально актриса полагала, что записывает типовые сообщения для внутренних сервисов Apple — например, голосовой почты. Именно за эти записи актриса получила деньги. За дальнейшее использование её голоса на миллионах устройств ей не заплатили.

Сьюзен Беннетт: «Все спрашивают, как же мне удалось стать голосом Siri. Сама не знаю»

Поэтому профсоюз SAG-AFTRA призывает принять законы, которые защищали бы актёров, и признаёт, что некоторые компании всё же работают добросовестно:

  • Они консультируются с профсоюзом по вопросу гонораров.
  • Делятся с актёрами прибылью каждый раз, когда клиент покупает право на использование их голоса.
  • Позволяют актёрам самим решать, в каких проектах будет звучать их голос.
1111
1 комментарий

Владельцы компаний "секс по телефону" аккуратно переписывают контактные данные разработчиков.