Голосовые помощники: поумнела ли Siri за 8 лет

Конспект лекции Алексея Айларова, сооснователя и CEO Voximplant, в рамках сессии «Искусственный интеллект и нейросети» на Russian Internet Week 2018.

Apple Homepod.

Мы занимаемся облачными real-time коммуникациями и последние несколько лет наблюдаем активное развитие голосовых ботов, которые разговаривают с людьми на естественном языке. Сегодня эти технологии повсеместно применяются крупным бизнесом для общения с клиентами — банками, авиалиниями, интернет-магазинами. В этой статье рассмотрим, что изменилось с момента появления первого ассистента восемь лет назад.

Популярные ассистенты

Siri. В 2011 году массовое распространение получил ассистент от Apple, интегрированный в iPhone 4S. На тот момент Siri умела взаимодействовать с 12 приложениями, включая напоминания, погоду, карты, электронную почту и календарь. Впоследствии список навыков расширился, и Siri стала умным устройством для всех продуктов Apple.

Прорыв компании Nuance в технологии распознавании речи, использованной для Siri, стал толчком к развитию индустрии голосовых помощников.

Google Assistant. В 2012 году появился сервис Google Now, который спустя четыре года был доработан до Google Assistant и Google Home. Компания сделала ставку на поиск ботом информации в Сети и на работу с собственными облачными сервисами, а затем и с операционной системой Android.

Google Home.

Cortana. Помощник для персональных компьютеров от Microsoft вышел на рынок в 2013 году, позже технология была распространена на Xbox.

Alexa. Amazon выпустил умного ассистента в 2014 году, взяв курс на создание отдельных устройств c встроенной Alexa. С их помощью компания, являющаяся мировым лидером в сегменте eCommerce, позволила людям покупать товары быстрее и проще.

Алиса. Российская разработка от компании Яндекс была представлена в октябре 2017 года. Сначала Алиса была добавлена в браузер, а прошлым летом стала «мозгом» Яндекс.Станции.

Ни один из крупных игроков индустрии не хотел отставать, видя большой потенциал в технологии.

Развитие: software и hardware

В первом случае мы говорим о навыках, встроенных вендором или добавленных другими сервисами через открытый API. С присоединением внешних разработчиков к развитию ассистента существенно растет список его умений и расширяется экосистема. Например, интеграция приложения для прослушивания музыки Spotify с Google-помощником позволяет выходить за рамки списка композиций Google Music.

Яндекс.Станция.

Кроме того, постоянно ведется работа над улучшением качества синтеза и распознавания речи, а также над определением разных голосов. Последнее полезно для умных колонок: например, я могу попросить включить любимую музыку, и условный Google Home откроет именно мой плейлист, а не другого члена семьи.

Второе направление развития — аппаратное обеспечение. Изначально голосовые помощники появились в смартфонах, поскольку именно этими устройствами наименее удобно управлять руками. Затем боты стали помогать работать с персональными компьютерами и, наконец, колонками. Последние стали необходимым звеном в экосистеме умного дома — интерфейсом, позволяющим управлять другими девайсами. Так, исследование Forrester демонстрирует прямое влияние распространения умных колонок на рост сектора IOT в целом.

Рынок умных устройств. Forrester 2017.

Плюсы голосовых помощников

  • Поддерживают натуральный язык общения. С ассистентом мы можем говорить почти так же, как друг с другом.
  • Удобны для заказа товаров и услуг. Это справедливо только для ситуаций с небольшим числом вариантов выбора. Например, при заказе пиццы бот перечислит несколько видов, на одном из которых мы остановимся — это будет быстро. Но очевидно, что никто не стал бы прослушивать список, состоящий из 100-200 позиций.
  • Ориентируются на контекст. Помощник учитывает множество данных для улучшения качества работы, включая информацию, которую уже знает о вас. Лидером здесь является Google благодаря массиву данных о пользователе, который ассистент имеет в распоряжении. Amazon же знает вашу историю покупок, поэтому Alexa может заказать молоко «как в прошлый раз».
  • Поддаются обучению. Помощника всегда можно обучить дополнительным навыкам — в разумных пределах.

Минусы голосовых помощников

  • Распознавание речи все еще не идеально. Особенно это касается шумных помещений или ситуаций, когда говорят несколько людей одновременно. Эти проблемы решают на уровнях как программного обеспечения, так и «железа». Например, умные колонки оснащаются минимум 4-5 микрофонами, один из которых фильтрует шум и один — эхо.
  • Голос звучит не совсем естественно. Несмотря на это, синтез речи становится всё качественнее: если пять лет назад голос в IVR был механическим, то сейчас благодаря машинному обучению и нейронным сетям происходит существенный прорыв. Так, технология WaveNet от Google позволяет тренировать бота с помощью записей голоса живого человека, делая синтез практически неотличимым от естественной речи с ее паузами, интонациями, вдохами и выдохами.
  • Общение с ассистентом отличается от человеческого. Перебить бота или дополнить слова жестами пока не получится: условная Алиса принимает запрос, распознает его и пытается выполнить задачу, если же в это время загружать ассистента новой информацией, процесс мышления может быть сбит. Неразрешимых технических задач нет, но такие доработки требуют времени.
  • Неработоспособность без интернета. Сегодня интернет есть практически везде, но в его отсутствие умный ассистент становится довольно глупым, работая лишь с локальными данными.
  • Ограниченный набор функций. Над расширением навыков ассистентов сейчас трудятся практически все разработчики, связанные с голосовым искусственным интеллектом.
Amazon Echo Dot.

На заметку

Пока остается нерешенным вопрос приватности информации. Умные устройства записывают нашу речь и окружающие звуки, а эти данные могут заинтересовать органы правопорядка. На настоящий момент нет общепринятой практики, как обладатель баз данных должен себя вести при запросе от властей: так, Amazon в некоторых кейсах отказывал в предоставлении информации, в других — шел на сотрудничество.

Что нас ждет в будущем

  • Более глубокая интеграция ассистента с умным домом.
  • Проактивность. То есть потенциальная способность ассистента обращаться к вам самостоятельно. Скорее всего, это будет опционально, но если бот умный, почему бы ему не начать разговор первым.
  • Определение эмоций. Например, если пользователь разговаривает раздраженно, ассистент сможет поменять алгоритм работы. Эти разработки будут активно применяться как в случае голосовых помощников, так и в B2B-кейсах — а именно для виртуальных операторов колл-центров.
  • Развитие нейронных сетей и моделей. Это постоянный процесс, который открывает всё большие перспективы для применения помощников.
  • Визуализация. Когда голосовой интерфейс неудобен — например, при выборе из множества позиций — возникает запрос на визуальное сопровождение. Вопрос, как именно это будет реализовано, пока открыт. Вероятнее всего, в будущем мы увидим голограмму помощника или умный экран.
0
3 комментария
Nikolay Kenig

Ок без инета никак. А что мешает сделать "внутрений буфер" В который будут записаны назовем это Базовые навыки. Например для управления техникой по вифи. Мы же как итог хотим умный дом сделать?

Ответить
Развернуть ветку
passer2003

Проще обеспечить второй канал интернета, чтобы не городить независимую инфраструктуру, работающую локально, тем более что ее сделать непросто.
А так все управление сотнями устройств с той же Алексой уже давно есть и замечательно работает.

Ответить
Развернуть ветку
Vitold S.

Разрабатывал навыки (расширения) для Alexa и Алисы поделюсь своим впечатлением. Во-первых странный выбор технологий (несмотря на существоавание Protobuf, WebSocket выбрали HTTP). Во-вторых односторонняя связь (почему помошник не может сказать у Вас входящий звонок) и заканчивая ограничениями для навыков: в Алисе элементарно не дают проиграть MP3 с сервера, что в целом мог компьютер с установленным WinAMP более двадцати лет назад. На данный момент вижу ущербность выбранной платформы Android для этих целей (элементарно не могут из песочницы Android вылезти). В целом печально все. Хотя интересно что там с Home Pod и Facebbok Portal и конечно ждем новостей от MAIL.RU они заикались.

Ответить
Развернуть ветку
0 комментариев
Раскрывать всегда