«Выбирали корпоративные цвета и шрифты — пора задуматься и о голосе»: зачем бизнес «нанимает» синтезаторы речи

Виртуальные голоса научились «плакать», имитировать акценты и адаптироваться под стили текстов. С их помощью компании исправляют оговорки актёров в кино, персонализируют рекламу, озвучивают игры и приложения. Как развивается рынок ИИ-голосов — в пересказе MIT Technology Review.

Синтезированную речь нередко используют мошенники, например, для автоматических звонков и спама. Несмотря на это, бизнес не теряет интереса к технологии.

По мнению издания, использовать искусственные голоса проще и дешевле, чем нанимать актёров. Также глубокое обучение помогает создавать ботов с естественными характеристиками речи:

«Роботы» делают присущие человеку вдохи и паузы.
Выражают эмоции.
Меняют манеру изложения в зависимости от жанра текста.

Разработчики создают голоса для цифровых устройств, колл-центров и видеоигр. Сиэтлский стартап WellSaid Labs, например, специализируется на озвучке обучающих роликов. Недавно компания выпустила восемь мужских и женских голосов для разных задач — среди них:

Тобин — «энергичный и проникновенный, хороший рассказчик».
Пейдж — «голос спокойный и выразительный, настраивает на размышление».
Ава — «учтивая, уверенная в себе, подойдёт для продаж».

Анонс новых ИИ-голосов WellSaid Labs: «Вашим историям нужен идеальный рассказчик, и WellSaid Studio готова помочь»

За основу каждого WellSaid Labs берёт голоса реальных актёров и продаёт лицензии на синтезированные копии. Покупателю достаточно загрузить текст в программу, чтобы бот его озвучил.

Компании давно используют синтез речи, но популярные голоса — в том числе Siri и Alexa — звучат неестественно, считает MIT Technology Review. Чтобы улучшить их, требуется время и человек: именно он должен задать ритм, а также определить интонацию и произношение.

Вместо этого разработчики используют алгоритмы: «скармливают» ботам несколько часов аудио, и те самостоятельно обучаются и определяют шаблоны речи. Сервис WellSaid Labs использует две основные модели технологии:

Первая определяет общие характеристики текста и предполагает, какими будут акцент, тональность и тембр виртуального актёра.
Вторая добавляет детали: анализирует, где имитировать вдох и как голос будет резонировать в пространстве.

Однако в живой речи человек эмоционирует, сбивается и может произнести одну и ту же реплику по-разному. Поэтому, чтобы синтезированный голос звучал убедительно, алгоритму нужно обработать множество аудиозаписей от разных актёров. На это, по словам журнала, могут уйти недели.

Примеры ИИ-голосов WellSaid Labs

Бренды внедряют голосовых помощников в корпоративные приложения, «умные» колонки, автомобили и дома. Пандемия только повысила спрос: виртуальное общение стало основным способом взаимодействия бизнеса с клиентами во время карантина.

Однако фирмы всё реже хотят использовать унифицированные голоса — вроде тех, что предлагают Google, Apple и Amazon.

Голос ресторанов Pizza Hut должен отличаться от голосов пиццерий Domino’s Pizza и Papa John’s. Он — часть айдентики бренда.
Компании ведь выбирают корпоративные цвета, шрифты. Пора задуматься и о фирменном звучании.
Рупал Патель

Раньше компаниям приходилось для каждого рынка нанимать разных актёров для озвучки ботов. Теперь технологии позволяют им использовать всего один голос и переключаться между акцентами и языками.

Благодаря этому стриминговые платформы могут адаптировать рекламу под регионы, изменяя не только характеристики голоса, но и содержание: например, рассказывать зрителю из Торонто, какой местный паб продаёт рекламируемый напиток.

Разработчик голосов для «умных» помощников и промороликов Resemble AI уже работает над запуском персонализированных аудиореклам для Spotify и Pandora.

Внедряет новые ИИ-технологии также развлекательно-игровая индустрия. Британский стартап Sonantic разработал алгоритм, который научился наделять цифровые голоса эмоциями: они смеются, плачут, шепчут и кричат.

Sonantic демонстрирует синтезированные голоса, которые использует в видеоиграх

Компания работает с производителями видеоигр и анимационными студиями и отмечает, что раньше многие из них использовали синтезированные голоса лишь на стадии разработки. Во время постпроизводства они заменяли ИИ реальными актёрами.

Сейчас, говорит Sonatic, они всё чаще используют искусственные голоса и в итоговых версиях игр. Правда, пока что для персонажей с меньшим количеством реплик.

Компании вроде Resemble AI также сотрудничают с кино- и телекомпаниями: последние заменяют с помощью ИИ неправильно произнесённые актерами фрагменты.

Несмотря на интерес к рынку и его рост, разработчикам по-прежнему предстоит решить ряд проблем, пишет издание:

Пока что они не могут управлять ИИ-голосом так же свободно, как режиссёр направляет актёра.
Со временем человек замечает «искусственность», даже если голос звучит реалистично. Это касается продолжительных записей — например, аудиокниг и подкастов.

Поэтому истинное развитие синтеза речи впереди, считает основатель Resemble AI Зохайб Ахмед. Так, по его словам, было и с технологией CGI: раньше с её помощью раскрашивали объекты, а теперь — создают «целые миры».

Не заменит искусственный интеллект и актёров: с длинными экспрессивными и нестандартными текстами пока что лучше справляется человек, считает журнал. К тому же именно актёр предоставляет алгоритму исходные данные для обучения.

Основная цель индустрии — не заменить человека, а открыть принципиально новые возможности.
Например, использовать синтез речи, чтобы быстро адаптировать образовательные онлайн-программы для аудиторий из разных культурно-социальных слоёв.
Рупал Патель

Однако профессионалы боятся потерять не работу, а деньги и уважение, говорит представитель профсоюза актёров США SAG-AFTRA. Они полагают, что компании урежут гонорары и станут использовать их голос без разрешения.

Последнее стало предметом недавнего иска против TikTok. По словам канадской актрисы Бев Стэндинг, приложение использует копию её голоса во встроенном генераторе озвучки.

vc.ru

Актриса подала в суд на TikTok из-за использования её голоса для озвучки текстов без разрешения — Соцсети на vc.ru

С подобным столкнулась и американская актриса Сьюзен Беннетт. Именно её голосом говорила первая версия Siri в США, хотя сама она узнала об этом лишь после запуска функции — от друзей.

Изначально актриса полагала, что записывает типовые сообщения для внутренних сервисов Apple — например, голосовой почты. Именно за эти записи актриса получила деньги. За дальнейшее использование её голоса на миллионах устройств ей не заплатили.

Сьюзен Беннетт: «Все спрашивают, как же мне удалось стать голосом Siri. Сама не знаю»

Поэтому профсоюз SAG-AFTRA призывает принять законы, которые защищали бы актёров, и признаёт, что некоторые компании всё же работают добросовестно:

Они консультируются с профсоюзом по вопросу гонораров.
Делятся с актёрами прибылью каждый раз, когда клиент покупает право на использование их голоса.
Позволяют актёрам самим решать, в каких проектах будет звучать их голос.

#искусственныйинтеллект #голосовойпомощник #siri #alexa

«Выбирали корпоративные цвета и шрифты — пора задуматься и о голосе»: зачем бизнес «нанимает» синтезаторы речи

Как технологии глубокого обучения помогают рынку

Повысить узнаваемость и персонализировать рекламу: зачем бизнесу ИИ-голоса

Как будет развиваться синтез речи и потеряют ли актёры работу