Ассистенты научатся узнавать человека по голосу: создатели Алисы, Маруси и других помощников обсудили будущее voice tech
Среди трендов — мультимодальность, гуманизация ассистентов и единая экосистема голосовых помощников.
Всем привет! На связи команда дизайна и разработки разговорных продуктов компании KODE. Мы развиваем свой инструмент для проектирования диалогов Fabble, voice tech сообщество и ведём Telegram-канал «Hey Voice!», где рассказываем об актуальных новостях голосовой индустрии.
Делимся с вами очевидными и спорными трендами в мире голоса, которые мы выявили по итогам беседы в Clubhouse вместе с экспертами из Mail.ru, SberDevices, Яндекс.Диалогов, Тинькофф, Альфа-Банка, Endel и «Моей Москвы».
— Эксперты.
— В чём суть.
⠀⠀⠀— Мультимодальность.
⠀⠀⠀— Голосовая биометрия.
Эксперты
Беседу модерировал Павел Гвай — основатель инструмента для VUI-дизайнеров Fabble. К обсуждению присоединились:
— директор по продукту Маруся (Mail.ru) Анатолий Кульбацкий,
— управляющий портфелем продуктов Альфа-Банка Владимир Китляр,
— руководитель платформы Яндекс.Диалоги Павел Капля,
— лидер детского и лайфстайл направлений SberDevices Анастасия Никитина,
— руководитель финансового ассистента Олега (Тинькофф) Серафима Чекулаева,
— руководитель голосового направления продукта Endel (скилл Alexa) Максим Зайцев,
— продакт-лид мобильного приложения «Моя Москва» Степан Митаки,
– тимлид команды VUI-дизайна и разработки разговорных продуктов компании KODE Никита Муренький.
В чём суть
Когда люди впервые познакомились с помощником Siri в 2011 году, никто не ожидал, что voice tech станет движущей силой инноваций. Спустя 10 лет люди используют голосовой поиск в 50% случаев, когда хотят найти информацию в интернете. Мировые продажи тоже бьют рекорды: только по итогам последнего квартала 2020 года Amazon продала 16,5 млн умных колонок и смарт-экранов. В России уже 52 млн человек пользуются голосовыми ассистентами, а проданных умных колонок у Яндекса насчитывается более 1 млн.
Разговорные технологии формируют новую реальность, где всё взаимодействие происходит без помощи рук. Особенно это стало актуальным в пандемию COVID–19. Люди готовы использовать голос для бесконтактных взаимодействий: заказа и доставки продуктов, банковских операций, записи на приём к врачу. Компании — от банковского дела до здравоохранения — стремятся создать собственных голосовых помощников, чтобы не отставать от потребительского запроса.
Очевидные тренды voice tech
– Мультимодальность
По статистике, люди получают 90% информации визуально, и только 10% — аудиально, поэтому в будущем голос в ассистентах станет только дополнением. Компании уже стремятся внедрить голосового помощника в графические интерфейсы: Google устанавливает смарт-экраны в номера отелей, Алиса теперь доступна в телевизорах со Smart TV от Яндекса, а Facebook и Xiaomi присоединяются к инициативе VII Amazon, которая поддерживает работу голосовых ассистентов на одних и тех же устройствах.
Направление voice only продолжит развиваться и тоже займёт свою нишу. Оно будет актуально для людей, которые физически не могут пользоваться графическими интерфейсами, и в тех случаях, когда удобнее использовать только голос: за рулём или во время готовки.
В итоге в мире голосовых технологий наблюдается тренд на мультимодальность, которая будет адаптироваться под конкретные задачи. Голос в таком случае станет дополнением для умного ассистента.
– Голосовая биометрия
Голосовая биометрия решает сразу несколько задач — идентификацию, когда нужно определить личность, и аутентификацию, когда личность человека нужно подтвердить. Физические особенности — фонетические и морфологические — индивидуальны для каждого человека, благодаря этому технология способна обеспечить защиту от мошенничества.
В 2020 году Google представил новую функцию Voice Match — теперь голосовой ассистент умеет подтверждать платежи и определять личность человека по голосу. В России голосовую биометрию уже применяют Сбер, Альфа-Банк, Хоум Кредит, Тинькофф и Почта Банк.
– Гуманизация голосового ассистента
Разрабатывая голосовых помощников, дизайнеры стремятся очеловечить сообщения с помощью эмоций и оценки действий пользователя. Часто это выглядит наигранно и вызывает отторжение. Чтобы гуманизировать ассистента, компании тщательно прорабатывают библии персонажей, где прописывают предпочтения, эмоции, интонацию и даже юмор.
В 2021 году активно развиваются стартапы, которые занимаются эмоциями и text-to-speech (TTS) — преобразованием текста в естественно звучащую речь на основе технологий искусственного интеллекта. Новые методы позволят гуманизировать голосовых ассистентов.
Чем лучше расписана библия характеров, тем больше гарантия успеха. Голос и интонирование формируют образ голосового помощника, а следом за ним — эмоции у пользователей. Каждый персонаж разрабатывается в зависимости от целей компании: так, Amazon, Apple, Microsoft и Google Assistant выбрали женский голос для своего голосового помощника, потому что их внутренние исследования показали, что он более «отзывчивый» и воспринимается лучше.
Сложнее всего дела обстоят с юмором. В отличие от классических диалогов, его нелегко воспроизвести и уместно использовать, поэтому он требует живой руки редактора и дизайнера навыков. В Тинькофф, например, за это отвечает отдельный человек — conversation-дизайнер.
Cпорные тренды voice tech
– Единая экосистема ассистентов
Компании уже обсуждают вопрос создания мультисистемного девайса, который позволит голосовым ассистентам объединиться в одну экосистему. Если это случится, то при запросе перевести деньги Алиса или Маруся будут автоматически переключать пользователя на другого узкоспециализированного помощника — например, Олега.
Единый мультисистемный девайс может не оправдать себя: это технологически трудно. Тот же функционал можно реализовать в виде внешнего навыка внутри основного ассистента, которому принадлежит поверхность.
– Монетизация голосовых помощников
Сейчас компании сталкиваются со сложностью монетизации голосовых ассистентов: пользователи не воспринимают их как маркетплейс. Пока у них нет понимания, что через помощников можно купить товары и услуги, а внутри платформы есть дополнительный платный функционал. Со временем ситуация будет меняться в лучшую сторону.
Главная задача компаний, занимающихся voice tech, — научиться продавать что-то, кроме музыки, которая давно стала сформировавшимся товаром безотносительно поверхности, где она играет. Люди относятся к ассистентам и навыками как к части всей платформы, источнику трафика и каналу маркетинга, а не как к активу стороннего бренда.
В отличие от графического интерфейса, голос полноценно приковывает внимание: чтобы воспринимать информацию из умных колонок, пользователю нужно концентрироваться. Если ассистентов начнут монетизировать с помощью рекламы, то человек не сможет от неё отвернуться.
– Развитие платформ общего назначения
Недавно Amazon запустил Alexa Custom Assistant, чтобы позволить брендам создавать собственных голосовых помощников на базе Alexa. Другие компании тоже открывают площадки для создания внешних навыков как отдельных и законченных продуктов.
Перед компаниями стоит вопрос: открывать ли платформу, на основе которой внешние разработчики смогут создавать навыки, или стоит остаться закрытой платформой, чтобы делать весь функционал самому. Пока неясно, будет ли голос развиваться по пути App Store и Google Play.
Вместе с открытием платформ компании откажутся создавать собственных голосовых ассистентов и начнут развивать внешние навыки на сторонних платформах. В итоге через пару лет останется несколько ассистентов общего назначения (general purpose) и собственные поверхности: например, приложения с банковскими ассистентами, которые будут дополнять основную мобильную платформу.
В будущем ожидается пересечение открытых платформ с нишевыми ассистентами. BBC, Spotify, Pandora, Mercedes-Benz и другие известные компании уже создали голосовых помощников и продолжат развивать их как часть бренда.
Будет интересно посмотреть, станут ли перечисленные тренды нашей новой реальностью в ближайшие 5–10 лет. Как вы думаете?
Как-то вроде поговорили, а нового ничего
В материале мы структурировали главные тренды, которые сейчас обсуждают в мире voice tech. Здорово, что вы следите за всеми технологиями!
А самые свежие новости мы публикуем в нашем Telegram-канале «Hey Voice!» и собираем в дайджесты на VC.
Отличная статья с основными положениями и цитатами, очень удобно читать.
Спасибо! Мы старались, чтобы всё было легко и по полочкам.
Ловите ещё одну классику!
Кстати, случай из видео произошёл, когда ассистента тестировали в колл-центре банка. А проблема была в лишнем пробеле в сценарии обслуживания. Насколько нам известно, сейчас Олег не позволяет себе говорить с людьми на джавийском ;)
"Голосовая биометрия решает сразу несколько задач — идентификацию, когда нужно определить личность, и аутентификацию, когда личность человека нужно подтвердить."
Вся биометрия может бытьскомпроментирована только один раз. Как только такая биометрия будет, то сразу сделают фальсификатор голоса и вся эта ваша биометрия идет лесом.
Именно поэтому голосовая биометрия может стать только дополнением к другим видам биометрии — для увеличения безопасности. Эту мысль в беседе озвучил наш эксперт Никита Муренький.
Очень скучная статья. ...
Почему вам так кажется?
Комментарий удален модератором
Комментарий удален модератором
Просто скажите Алисе попросить оплатить телефон. Например, вот так:
Алиса, попроси оплатить телефон <номер телефона>