Будущее Voximplant
757

Голосовые помощники: поумнела ли Siri за 8 лет

Конспект лекции Алексея Айларова, сооснователя и CEO Voximplant, в рамках сессии «Искусственный интеллект и нейросети» на Russian Internet Week 2018.

В закладки
Apple Homepod.

Мы занимаемся облачными real-time коммуникациями и последние несколько лет наблюдаем активное развитие голосовых ботов, которые разговаривают с людьми на естественном языке. Сегодня эти технологии повсеместно применяются крупным бизнесом для общения с клиентами — банками, авиалиниями, интернет-магазинами. В этой статье рассмотрим, что изменилось с момента появления первого ассистента восемь лет назад.

Популярные ассистенты

Siri. В 2011 году массовое распространение получил ассистент от Apple, интегрированный в iPhone 4S. На тот момент Siri умела взаимодействовать с 12 приложениями, включая напоминания, погоду, карты, электронную почту и календарь. Впоследствии список навыков расширился, и Siri стала умным устройством для всех продуктов Apple.

Прорыв компании Nuance в технологии распознавании речи, использованной для Siri, стал толчком к развитию индустрии голосовых помощников.

Google Assistant. В 2012 году появился сервис Google Now, который спустя четыре года был доработан до Google Assistant и Google Home. Компания сделала ставку на поиск ботом информации в Сети и на работу с собственными облачными сервисами, а затем и с операционной системой Android.

Google Home.

Cortana. Помощник для персональных компьютеров от Microsoft вышел на рынок в 2013 году, позже технология была распространена на Xbox.

Alexa. Amazon выпустил умного ассистента в 2014 году, взяв курс на создание отдельных устройств c встроенной Alexa. С их помощью компания, являющаяся мировым лидером в сегменте eCommerce, позволила людям покупать товары быстрее и проще.

Алиса. Российская разработка от компании Яндекс была представлена в октябре 2017 года. Сначала Алиса была добавлена в браузер, а прошлым летом стала «мозгом» Яндекс.Станции.

Ни один из крупных игроков индустрии не хотел отставать, видя большой потенциал в технологии.

Развитие: software и hardware

В первом случае мы говорим о навыках, встроенных вендором или добавленных другими сервисами через открытый API. С присоединением внешних разработчиков к развитию ассистента существенно растет список его умений и расширяется экосистема. Например, интеграция приложения для прослушивания музыки Spotify с Google-помощником позволяет выходить за рамки списка композиций Google Music.

Яндекс.Станция.

Кроме того, постоянно ведется работа над улучшением качества синтеза и распознавания речи, а также над определением разных голосов. Последнее полезно для умных колонок: например, я могу попросить включить любимую музыку, и условный Google Home откроет именно мой плейлист, а не другого члена семьи.

Второе направление развития — аппаратное обеспечение. Изначально голосовые помощники появились в смартфонах, поскольку именно этими устройствами наименее удобно управлять руками. Затем боты стали помогать работать с персональными компьютерами и, наконец, колонками. Последние стали необходимым звеном в экосистеме умного дома — интерфейсом, позволяющим управлять другими девайсами. Так, исследование Forrester демонстрирует прямое влияние распространения умных колонок на рост сектора IOT в целом.

Рынок умных устройств. Forrester 2017.

Плюсы голосовых помощников

  • Поддерживают натуральный язык общения. С ассистентом мы можем говорить почти так же, как друг с другом.
  • Удобны для заказа товаров и услуг. Это справедливо только для ситуаций с небольшим числом вариантов выбора. Например, при заказе пиццы бот перечислит несколько видов, на одном из которых мы остановимся — это будет быстро. Но очевидно, что никто не стал бы прослушивать список, состоящий из 100-200 позиций.
  • Ориентируются на контекст. Помощник учитывает множество данных для улучшения качества работы, включая информацию, которую уже знает о вас. Лидером здесь является Google благодаря массиву данных о пользователе, который ассистент имеет в распоряжении. Amazon же знает вашу историю покупок, поэтому Alexa может заказать молоко «как в прошлый раз».
  • Поддаются обучению. Помощника всегда можно обучить дополнительным навыкам — в разумных пределах.

Минусы голосовых помощников

  • Распознавание речи все еще не идеально. Особенно это касается шумных помещений или ситуаций, когда говорят несколько людей одновременно. Эти проблемы решают на уровнях как программного обеспечения, так и «железа». Например, умные колонки оснащаются минимум 4-5 микрофонами, один из которых фильтрует шум и один — эхо.
  • Голос звучит не совсем естественно. Несмотря на это, синтез речи становится всё качественнее: если пять лет назад голос в IVR был механическим, то сейчас благодаря машинному обучению и нейронным сетям происходит существенный прорыв. Так, технология WaveNet от Google позволяет тренировать бота с помощью записей голоса живого человека, делая синтез практически неотличимым от естественной речи с ее паузами, интонациями, вдохами и выдохами.
  • Общение с ассистентом отличается от человеческого. Перебить бота или дополнить слова жестами пока не получится: условная Алиса принимает запрос, распознает его и пытается выполнить задачу, если же в это время загружать ассистента новой информацией, процесс мышления может быть сбит. Неразрешимых технических задач нет, но такие доработки требуют времени.
  • Неработоспособность без интернета. Сегодня интернет есть практически везде, но в его отсутствие умный ассистент становится довольно глупым, работая лишь с локальными данными.
  • Ограниченный набор функций. Над расширением навыков ассистентов сейчас трудятся практически все разработчики, связанные с голосовым искусственным интеллектом.
Amazon Echo Dot.

На заметку

Пока остается нерешенным вопрос приватности информации. Умные устройства записывают нашу речь и окружающие звуки, а эти данные могут заинтересовать органы правопорядка. На настоящий момент нет общепринятой практики, как обладатель баз данных должен себя вести при запросе от властей: так, Amazon в некоторых кейсах отказывал в предоставлении информации, в других — шел на сотрудничество.

Что нас ждет в будущем

  • Более глубокая интеграция ассистента с умным домом.
  • Проактивность. То есть потенциальная способность ассистента обращаться к вам самостоятельно. Скорее всего, это будет опционально, но если бот умный, почему бы ему не начать разговор первым.
  • Определение эмоций. Например, если пользователь разговаривает раздраженно, ассистент сможет поменять алгоритм работы. Эти разработки будут активно применяться как в случае голосовых помощников, так и в B2B-кейсах — а именно для виртуальных операторов колл-центров.
  • Развитие нейронных сетей и моделей. Это постоянный процесс, который открывает всё большие перспективы для применения помощников.
  • Визуализация. Когда голосовой интерфейс неудобен — например, при выборе из множества позиций — возникает запрос на визуальное сопровождение. Вопрос, как именно это будет реализовано, пока открыт. Вероятнее всего, в будущем мы увидим голограмму помощника или умный экран.

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Voximplant", "author_type": "self", "tags": [], "comments": 3, "likes": 14, "favorites": 13, "is_advertisement": false, "subsite_label": "future", "id": 55844, "is_wide": false, "is_ugc": true, "date": "Fri, 18 Jan 2019 12:01:04 +0300" }
{ "id": 55844, "author_id": 177297, "diff_limit": 1000, "urls": {"diff":"\/comments\/55844\/get","add":"\/comments\/55844\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/55844"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199118, "possessions": [] }

3 комментария 3 комм.

Популярные

По порядку

0

Ок без инета никак. А что мешает сделать "внутрений буфер" В который будут записаны назовем это Базовые навыки. Например для управления техникой по вифи. Мы же как итог хотим умный дом сделать?

Ответить
0

Проще обеспечить второй канал интернета, чтобы не городить независимую инфраструктуру, работающую локально, тем более что ее сделать непросто.
А так все управление сотнями устройств с той же Алексой уже давно есть и замечательно работает.

Ответить
0

Разрабатывал навыки (расширения) для Alexa и Алисы поделюсь своим впечатлением. Во-первых странный выбор технологий (несмотря на существоавание Protobuf, WebSocket выбрали HTTP). Во-вторых односторонняя связь (почему помошник не может сказать у Вас входящий звонок) и заканчивая ограничениями для навыков: в Алисе элементарно не дают проиграть MP3 с сервера, что в целом мог компьютер с установленным WinAMP более двадцати лет назад. На данный момент вижу ущербность выбранной платформы Android для этих целей (элементарно не могут из песочницы Android вылезти). В целом печально все. Хотя интересно что там с Home Pod и Facebbok Portal и конечно ждем новостей от MAIL.RU они заикались.

Ответить
0
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Голосовой помощник выкупил
компанию-создателя
Подписаться на push-уведомления
{ "page_type": "default" }