Ассистенты научатся узнавать человека по голосу: создатели Алисы, Маруси и других помощников обсудили будущее voice tech

Среди трендов — мультимодальность, гуманизация ассистентов и единая экосистема голосовых помощников.

Ассистенты научатся узнавать человека по голосу: создатели Алисы, Маруси и других помощников обсудили будущее voice tech

Всем привет! На связи команда дизайна и разработки разговорных продуктов компании KODE. Мы развиваем свой инструмент для проектирования диалогов Fabble, voice tech сообщество и ведём Telegram-канал «Hey Voice!», где рассказываем об актуальных новостях голосовой индустрии.

Делимся с вами очевидными и спорными трендами в мире голоса, которые мы выявили по итогам беседы в Clubhouse вместе с экспертами из Mail.ru, SberDevices, Яндекс.Диалогов, Тинькофф, Альфа-Банка, Endel и «Моей Москвы».

Эксперты

Беседу модерировал Павел Гвай — основатель инструмента для VUI-дизайнеров Fabble. К обсуждению присоединились:

— директор по продукту Маруся (Mail.ru) Анатолий Кульбацкий,

— управляющий портфелем продуктов Альфа-Банка Владимир Китляр,

— руководитель платформы Яндекс.Диалоги Павел Капля,

— лидер детского и лайфстайл направлений SberDevices Анастасия Никитина,

— руководитель финансового ассистента Олега (Тинькофф) Серафима Чекулаева,

— руководитель голосового направления продукта Endel (скилл Alexa) Максим Зайцев,

— продакт-лид мобильного приложения «Моя Москва» Степан Митаки,

– тимлид команды VUI-дизайна и разработки разговорных продуктов компании KODE Никита Муренький.

В чём суть

Когда люди впервые познакомились с помощником Siri в 2011 году, никто не ожидал, что voice tech станет движущей силой инноваций. Спустя 10 лет люди используют голосовой поиск в 50% случаев, когда хотят найти информацию в интернете. Мировые продажи тоже бьют рекорды: только по итогам последнего квартала 2020 года Amazon продала 16,5 млн умных колонок и смарт-экранов. В России уже 52 млн человек пользуются голосовыми ассистентами, а проданных умных колонок у Яндекса насчитывается более 1 млн.

Разговорные технологии формируют новую реальность, где всё взаимодействие происходит без помощи рук. Особенно это стало актуальным в пандемию COVID–19. Люди готовы использовать голос для бесконтактных взаимодействий: заказа и доставки продуктов, банковских операций, записи на приём к врачу. Компании — от банковского дела до здравоохранения — стремятся создать собственных голосовых помощников, чтобы не отставать от потребительского запроса.

Очевидные тренды voice tech

– Мультимодальность

По статистике, люди получают 90% информации визуально, и только 10% — аудиально, поэтому в будущем голос в ассистентах станет только дополнением. Компании уже стремятся внедрить голосового помощника в графические интерфейсы: Google устанавливает смарт-экраны в номера отелей, Алиса теперь доступна в телевизорах со Smart TV от Яндекса, а Facebook и Xiaomi присоединяются к инициативе VII Amazon, которая поддерживает работу голосовых ассистентов на одних и тех же устройствах.

Голосовые ассистенты уже сейчас мультимодальны: в чистом виде голос работает только в колонках без экранов. При этом люди чаще обращаются к помощникам на смартфонах. Объяснить, где находится машина, проще визуально на карте, чем голосом.

Анатолий Кульбацкий, Mail.ru

Мы за мультимодальность. Взаимодействие с ассистентами Салют от Сбер на различных поверхностях уже сейчас мультимодально. Можно общаться голосом, жестами или использовать тач-интерфейс. За этим будущее. Задачи человека так или иначе связаны с визуальным набором, а без экрана такие запросы к ассистенту будут не полными. Хотелось бы всегда иметь возможность выбора.

Анастасия Никитина, SberDevices

Направление voice only продолжит развиваться и тоже займёт свою нишу. Оно будет актуально для людей, которые физически не могут пользоваться графическими интерфейсами, и в тех случаях, когда удобнее использовать только голос: за рулём или во время готовки.

Для нас очень важна инклюзивность: чтобы все люди могли пользоваться нашими сервисами. Голосовой ассистент упрощает доступ к городским сервисам для людей с ограниченными возможностями зрения. Такие кейсы тоже нужно учитывать при разговоре о мультимодальности.

Степан Митаки, «Моя Москва», приложение mos.ru

В итоге в мире голосовых технологий наблюдается тренд на мультимодальность, которая будет адаптироваться под конкретные задачи. Голос в таком случае станет дополнением для умного ассистента.

– Голосовая биометрия

Голосовая биометрия решает сразу несколько задач — идентификацию, когда нужно определить личность, и аутентификацию, когда личность человека нужно подтвердить. Физические особенности — фонетические и морфологические — индивидуальны для каждого человека, благодаря этому технология способна обеспечить защиту от мошенничества.

В 2020 году Google представил новую функцию Voice Match — теперь голосовой ассистент умеет подтверждать платежи и определять личность человека по голосу. В России голосовую биометрию уже применяют Сбер, Альфа-Банк, Хоум Кредит, Тинькофф и Почта Банк.

Авторизация по голосу позволит людям подтверждать личность без дополнительных манипуляций: разблокировки экрана и входа в приложение. Помощники уже сильно персонализированы, и голосовая биометрия — следующий шаг в развитии voice tech. Голос будет управлять даже финансовым помощником, который не раскроет конфиденциальную информацию другому человеку.

Серафима Чекулаева, Тинькофф

Биометрическая точность голоса находится в диапазоне 90–99%, а использовать голосовые биометрию и интерфейс может быть неудобно в людных и шумных местах. Тем не менее, эта технология даст комфортный опыт бесшовного голосового взаимодействия. Будет возможна voice only оплата на домашних умных устройствах и во время вождения. Также она может стать дополнением к другим видам биометрии для увеличения безопасности: например, при использовании банкоматов.

Никита Муренький, тимлид в команде голосовых интерфейсов

– Гуманизация голосового ассистента

Разрабатывая голосовых помощников, дизайнеры стремятся очеловечить сообщения с помощью эмоций и оценки действий пользователя. Часто это выглядит наигранно и вызывает отторжение. Чтобы гуманизировать ассистента, компании тщательно прорабатывают библии персонажей, где прописывают предпочтения, эмоции, интонацию и даже юмор.

Если под глубокой проработкой персонажа мы подразумеваем то, что видим в кинематографе и играх, то мы на начальной стадии. Конечно, наш Tone of Voice показывает, каким образом Маруся общается с пользователями, но сложность в том, что пока у нас нет линейного взаимодействия с ассистентом. Здесь стоит экспериментировать. Чтобы вызвать у пользователя реакцию и положительное подкрепление, можно внедрить определённые звуки, как в голосовых играх. Синтетический голос будет развиваться в сторону естественного, с оправданными эмоциональными реакциями.

Анатолий Кульбацкий, Mail.ru

В 2021 году активно развиваются стартапы, которые занимаются эмоциями и text-to-speech (TTS) — преобразованием текста в естественно звучащую речь на основе технологий искусственного интеллекта. Новые методы позволят гуманизировать голосовых ассистентов.

В библии персонажей мы прописываем характеры: кто что любит и как именно общается. Джой дружелюбная, лёгкая в общении и разговаривает с пользователем на «ты». Афина — официальная и общается на «вы», как и банковский представитель Сбер. У них разные интересы в музыке, еде и других сферах. Кроме речи, мы стараемся перенять человеческую модель общения и подробно прорабатываем сценарии ответов, тексты и рисунок диалогов — даже встраиваем междометия, смех и завуалированные фразы для выражения эмоций. Сейчас работаем над интонированием. Думаю, уже через год появятся новые модели, которые сделают речь ассистентов более естественной.

Анастасия Никитина, SberDevices

Чем лучше расписана библия характеров, тем больше гарантия успеха. Голос и интонирование формируют образ голосового помощника, а следом за ним — эмоции у пользователей. Каждый персонаж разрабатывается в зависимости от целей компании: так, Amazon, Apple, Microsoft и Google Assistant выбрали женский голос для своего голосового помощника, потому что их внутренние исследования показали, что он более «отзывчивый» и воспринимается лучше.

Сложнее всего дела обстоят с юмором. В отличие от классических диалогов, его нелегко воспроизвести и уместно использовать, поэтому он требует живой руки редактора и дизайнера навыков. В Тинькофф, например, за это отвечает отдельный человек — conversation-дизайнер.

В некоторых кейсах мы используем юмор, но в сложных по тематике сервисах стараемся выстраивать визуальную коммуникацию в нейтральном тоне. Голосовые технологии, распознавание речи и классификация интентов ещё далеки от идеала, и цена ошибки высокая: система может неправильно определить интент и выдать шутку вместо ответа на серьёзный запрос.

Степан Митаки,

«Моя Москва», приложение mos.ru

Мультимодальность даст больше возможностей для выражения персоны ассистента. Не исключено, что в будущем мы сможем не только услышать помощника, но и увидеть его аватар с мимикой по типу мемоджи.

Павел Гвай, Fabble

Cпорные тренды voice tech

– Единая экосистема ассистентов

Компании уже обсуждают вопрос создания мультисистемного девайса, который позволит голосовым ассистентам объединиться в одну экосистему. Если это случится, то при запросе перевести деньги Алиса или Маруся будут автоматически переключать пользователя на другого узкоспециализированного помощника — например, Олега.

Когда мы начинали формировать вижен голосового ассистента, мы сразу решили, что у Альфа будет своя конкретная специализация — финансовый помощник. В этом смысле он может уживаться с универсальным голосовым помощником в одном формфакторе. Если один голосовой ассистент — универсальный, а другой — профильный, то они будут друг друга дополнять, а не конкурировать. Этот же подход позволит элегантно решить задачу быстрого запуска помощника в приложении.

Владимир Китляр, Альфа-Банк

Компании уже пробовали объединяться по такому принципу. Достаточно вспомнить опыт Алексы и Кортаны: они умели вызывать друг друга на Windows.

Павел Гвай, Fabble

Единый мультисистемный девайс может не оправдать себя: это технологически трудно. Тот же функционал можно реализовать в виде внешнего навыка внутри основного ассистента, которому принадлежит поверхность.

Единую поверхность, на которой можно запускать разных ассистентов одного «ранга», в ближайшее время ждать не стоит. Вместо них будут появляться аналоги Alexa Custom Assistant — решения, которые позволят брендам создавать собственных узкофункциональных ассистентов и добавлять их в экосистему универсальных голосовых помощников.

Никита Муренький, тимлид команды разговорных интерфейсов

– Монетизация голосовых помощников

Сейчас компании сталкиваются со сложностью монетизации голосовых ассистентов: пользователи не воспринимают их как маркетплейс. Пока у них нет понимания, что через помощников можно купить товары и услуги, а внутри платформы есть дополнительный платный функционал. Со временем ситуация будет меняться в лучшую сторону.

Когда пользователи просят Алексу поставить Endel (приложение с генеративной музыкой для сна, расслабления или концентрации — прим. ред.), они сильно удивляются, что навык платный, и отказываются от предложения. Постепенно ситуация меняется, но изначально люди воспринимали Endel как часть базового функционала Алексы: просто классное приложение внутри ассистента.

Максим Зайцев, Endel

Главная задача компаний, занимающихся voice tech, — научиться продавать что-то, кроме музыки, которая давно стала сформировавшимся товаром безотносительно поверхности, где она играет. Люди относятся к ассистентам и навыками как к части всей платформы, источнику трафика и каналу маркетинга, а не как к активу стороннего бренда.

Раньше приложения для бизнеса, мобильные банки и личные кабинеты операторов тоже лежали в бюджете маркетинга: никто не воспринимал их как источник заработка или сокращение костов на тот же колл-центр. Когда через мобильные приложения люди начали открывать счета и покупать валюту, эти проекты перешли в розничный бизнес — на них стали зарабатывать. Путь приложений и навыков для маркетплейсов, в которые прорастают виртуальные ассистенты, очень похож.

Анастасия Никитина, SberDevices

В отличие от графического интерфейса, голос полноценно приковывает внимание: чтобы воспринимать информацию из умных колонок, пользователю нужно концентрироваться. Если ассистентов начнут монетизировать с помощью рекламы, то человек не сможет от неё отвернуться.

В Яндекс.Диалогах мы стараемся двигаться в сбалансированном направлении. У нас есть система поддержки навыков: лучшие навыки мы промоутируем, например, в каталоге и с помощью построллов, а ещё периодически награждаем премией. Кроме того, мы разработали рекламную модель, которая даёт разработчикам постоянный доход. Получается последовательная поддержка: мы предоставляем трафик, рассказываем, какие навыки лучше заходят пользователям, и постепенно выводим их на самостоятельную монетизацию.

Павел Капля, Яндекс.Диалоги

– Развитие платформ общего назначения

Недавно Amazon запустил Alexa Custom Assistant, чтобы позволить брендам создавать собственных голосовых помощников на базе Alexa. Другие компании тоже открывают площадки для создания внешних навыков как отдельных и законченных продуктов.

Открываться, безусловно, нужно. Закрытые системы менее продуктивны и очень медленно развиваются: мы это видим на примере Siri.

Максим Зайцев, Endel

Трудно представить, какого размера должна быть команда, чтобы разрабатывать десятки тысяч навыков. У каждого ассистента есть своя внутренняя экспертиза: у Маруси — социальные сети, почта и взаимодействие между пользователями, у Сбера — банковские услуги и экосистемные сервисы, у Яндекса — поиск. Остальное трудно сделать самостоятельно.

Анатолий Кульбацкий, Mail.ru

Перед компаниями стоит вопрос: открывать ли платформу, на основе которой внешние разработчики смогут создавать навыки, или стоит остаться закрытой платформой, чтобы делать весь функционал самому. Пока неясно, будет ли голос развиваться по пути App Store и Google Play.

Это вопрос времени. Когда появился App Store, все постепенно начали делать свои мобильные приложения. Мы только в начале этого пути: появились экраны, голос выходит на новые поверхности, бизнес начинает смотреть в эту сторону. Это естественный процесс развития рынка. Наша задача как платформы — формировать гайдлайны и шаблоны, упрощать этот путь и помогать внешним разработчикам улучшать навыки.

Анастасия Никитина, SberDevices

Вместе с открытием платформ компании откажутся создавать собственных голосовых ассистентов и начнут развивать внешние навыки на сторонних платформах. В итоге через пару лет останется несколько ассистентов общего назначения (general purpose) и собственные поверхности: например, приложения с банковскими ассистентами, которые будут дополнять основную мобильную платформу.

На мой взгляд, у бизнесов не должно стоять задачи сделать своего помощника — нужно думать о том, как эффективно и лаконично заходить в другие ассистенты общего назначения.

Павел Капля, Яндекс.Диалоги

В будущем ожидается пересечение открытых платформ с нишевыми ассистентами. BBC, Spotify, Pandora, Mercedes-Benz и другие известные компании уже создали голосовых помощников и продолжат развивать их как часть бренда.

Голосовой ассистент — это не просто набор полезных утилитарных функций. Это брендовый персонаж. Я верю в нишевых ассистентов, потому что это некая зона, где компания может проявить экспертизу. Например, если это банковский ассистент, то у него будут уникальные финансовые навыки, которые не сделают на общей платформе.

Серафима Чекулаева, Тинькофф

У собственного ассистента вместо навыка есть важное преимущество: больший потенциал для монетизации. Это представитель бизнеса, поэтому реклама и предложения о покупке с его стороны будут звучать более естественно. Но количество голосовых персонажей ограничено: никто не захочет запоминать имя 15-го ассистента, чтобы управлять холодильником. За решениями, вроде Alexa Custom Assistant, большое будущее.

Никита Муренький, тимлид команды разговорных интерфейсов

Будет интересно посмотреть, станут ли перечисленные тренды нашей новой реальностью в ближайшие 5–10 лет. Как вы думаете?

1717
11 комментариев

Как-то вроде поговорили, а нового ничего

2
Автор

В материале мы структурировали главные тренды, которые сейчас обсуждают в мире voice tech. Здорово, что вы следите за всеми технологиями!

А самые свежие новости мы публикуем в нашем Telegram-канале «Hey Voice!» и собираем в дайджесты на VC.

2

Отличная статья с основными положениями и цитатами, очень удобно читать.

2
Автор

Спасибо! Мы старались, чтобы всё было легко и по полочкам. 

2
Автор

Ловите ещё одну классику!

Кстати, случай из видео произошёл, когда ассистента тестировали в колл-центре банка. А проблема была в лишнем пробеле в сценарии обслуживания. Насколько нам известно, сейчас Олег не позволяет себе говорить с людьми на джавийском ;)

3

"Голосовая биометрия решает сразу несколько задач — идентификацию, когда нужно определить личность, и аутентификацию, когда личность человека нужно подтвердить."
Вся биометрия может бытьскомпроментирована только один раз. Как только такая биометрия будет, то сразу сделают фальсификатор голоса и вся эта ваша биометрия идет лесом.