«Люди не станут пользоваться голосовым ассистентом, если проще решить задачу другим способом»

Перевод статьи Nielsen Norman Group о том, соответствуют ли современные «умные» помощники нуждам пользователей.

Виртуальные ассистенты — новый и быстро набирающий популярность способ взаимодействия с различными устройствами: им оборудованы и телефоны, и «умные» колонки вроде Amazon Echo и Google Home.

Также их распространённость подкрепляется тем, что крупные организации вроде Bank of America представляют помощников, созданных специально для работы в определённой сфере.

В отдельной статье мы обсудили шесть характеристик интеллектуальных агентов, которые сулят новой технологии неплохие перспективы. Тем не менее проверки на эргономичность показали: современные помощники далеки от идеала.

С другой стороны, мы обнаружили: несмотря на ограниченные способности помощников, пользователи взаимодействовали с ними, чтобы выполнить небольшое количество простых задач: узнать какой-то факт, прогноз погоды, проложить дорогу домой. Хорошо ли работают эти функции? Нужно ли пользователям больше?

Раздумывая об усовершенствовании продукта, необходимо задаться вопросом: действительно ли новая функция нужна? Чтобы узнать, есть ли запрос на более передовые виртуальные ассистенты, мы установили и сравнили следующее:

чего люди ждут от идеального «умного» помощника?
как используются нынешние помощники?
сколько идеальных запросов выполняется современными помощниками (знают об этом пользователи или нет)?

Отвечая на вопросы выше, мы провели два исследования:

Дневниковое исследование потребностей пользователей. Мы попросили 12 участников притвориться, будто у них есть самый «умный» ассистент, который только можно создать (идеальная версия Siri или Google Assistant); помощник будет доступен в любое время, в любом месте и сможет помочь с чем угодно. Целую неделю участники эксперимента отмечали все запросы к нему, для каждого случая заполняя анкету: чего они хотели, какой реакции ожидали от ассистента. Также они указывали, как в конце концов выразили запрос и выразили ли его вообще. (На эту часть исследования нас вдохновил Тимоти Зон и его коллеги, которые ещё до повсеместного распространения смартфонов похожим образом изучали информационные потребности с точки зрения мобильных устройств, чтобы понять, как их можно использовать.) Чтобы установить, насколько далеки нынешние «умные» помощники от потребностей человека, мы направили каждый запрос, записанный участниками, трём существующим ассистентам: Siri, Google Assistant, Alexa, отметив, могут ли они его выполнить. (Если один помощник не справлялся, мы пробовали другой). Если запрос выполнялся частично, мы отмечали его как «частично выполненный». К ассистентам мы решили относиться как можно мягче, поэтому время от времени меняли формулировки на более подходящие.
Исследование методом критических инцидентов. Мы также опросили 211 пользователей Alexa, Siri и Google Assistant, узнав, каким был их последний запрос к ассистенту. Результатам опроса посвящена отдельная статья, но мы обращаемся к ним здесь, чтобы интерпретировать данные дневникового исследования.

В рамках первого эксперимента участники записали 636 запросов. 14 из них были неясными, поэтому мы исключили их из анализа. 193 запроса приходились на «повторяющиеся», то есть за всё время участники задавали их несколько раз. Следовательно, мы сосредоточимся на 429 уникальных запросах.

Мы обнаружили, что нынешние «умные» ассистенты справились бы с 41% (177) «идеальных» запросов, отмеченных в дневниковом исследовании; ещё с 21% справился бы частично хоть один помощник.

Способность современных ассистентов выполнять «идеальные» запросы пользователей — повод для гордости их создателей. Тем не менее, обратив внимание на то, каким образом участники исследования ставили задачу, мы обнаружили, что лишь 7% запросов было обработано непосредственно Alexa, Siri и Google Assistant.

Вместо этого 46% ввели через компьютер или телефон, 20% — посредством физического взаимодействия, 4% пришлось на телефонные звонки, а 25% — вообще не были выражены.

Учитывая, что нынешние помощники осилили бы в общей сложности 62% запросов, задействовали их лишь в одном случае из девяти. Даже если отбросить частично выполненные и сравнить только количество полностью выполненных запросов с частотой использования ассистентов, мы всё равно получим почти пятикратную разницу.

Такое редкое взаимодействие говорит о том, что ожидание от помощников довольно низкое и о сложностях, с которыми пользователи, возможно, сталкивались прежде. Также стоит помнить: не все ассистенты одинаково хорошо справляются с конкретной командой, не все формулировки этой команды работают одинаково хорошо.

Для успешной обработки запроса есть два обязательных условия:

у участника должен быть правильный помощник;
участник должен формулировать команду, «точно» соответствующую запросу.

Два этих требования помогают объяснить, почему на практике разница между возможным и достигнутым так велика.

Команды агентам, как правило, не отличались сложностью: «поставь будильник на восемь утра», «в котором часу открывается парк», «поставь музыку, чтобы проснуться», «напомни помыть голову Оливии в восемь вечера», «какая погода после обеда», «поставь таймер на 15 минут», «включи свет», «что значит „грабёж”».

Мы спросили участников, какой сигнал, на их взгляд, должен запустить работу помощника. Наиболее популярным вариантом стала голосовая команда (84%). Свободный голосовой ввод был для участников исследования важной функцией.

Для 4% запросов участники подали бы ясную невербальную команду (нажатие кнопки или особый жест). Так, одна из участниц почесала бы живот, давая понять ассистенту, что она голодна. Другой участник хотел бы, чтобы при запирании дверей выключался свет. Третий вариант: помощник должен самостоятельно спрашивать, когда участница хочет проснуться, как только она ложится вздремнуть.

Также некоторые участники отметили, что предпочли бы невербальную команду, если запрашиваемая информация сложна. Одна из участниц отметила: она бы напечатала название ресторана, в котором ей хотелось бы забронировать столик, чтобы убедиться, что при голосовом вводе не закралась ошибка.

Однако в 12% случаев участники предполагали, что ассистент придёт на помощь без всякой команды, опираясь на контекст. Иногда их ожидания были оправданы и основывались на данных, которыми ассистент наверняка располагает (предыдущие взаимодействия, доступ к календарю, местоположению и прочей персональной информации).

Иногда участники подавали очень тонкие сигналы, на которые, как им казалось, помощник должен обращать внимание, превращаясь в почти что чуткого человека, делающего первый шаг.

Примеры запросов, основанных на чётких данных:

оповещение о задержке рейсов, отмеченных в календаре;
регулярные напоминания о тренировках, уборке, стирке — без предварительной настройки;
автоматическая регистрация на указанный в календаре рейс за сутки;
включение сигнализации после выхода из дома;
предупреждение о том, что некоторые вещи не пройдут проверку безопасности там, куда отправляется пользователь (музей, аэропорт и так далее);
отправка письма участникам встречи при возможном опоздании (на основе календаря и геолокации).

Примеры запросов, основанных на неявных сигналах:

проверка условий отпуска лекарства из аптек сразу после посещения доктора;
поиск ресторана в Yelp, чье название было упомянуто в беседе;
отслеживание симптомов о головной боли и предупреждение пользователя;
автоматическое отслеживание цены авиабилета, если пользователь её искал;
улавливание запахов одежды и напоминание о стирке.

Некоторые ожидания, впрочем, были довольно натянутыми. Один из пользователей, например, хотел, чтобы ассистент получил доступ к данным других людей и предупреждал об их поведении.

Другой желал, чтобы помощник предупреждал его, когда мимо кабинета проходит начальник; кому-то требовалось, чтобы система вычислила, в каком направлении будет двигаться машина впереди, и уведомила его, чтобы он за ней не застрял (и то и другое технически возможно, но будет нарушением прав). Ещё один участник ожидал, что помощник определит, заполнял ли кто-то налоговые декларации от имени его жены.

Участники записали множество запросов — от простых, одношаговых до сложных, требующих данных из разных источников:

одношаговые действия;
многошаговые запросы похожи на поток взаимодействий с сайтом или приложением;
многозадачные запросы содержат в себе несколько действий и в процессе выполнения требуют участия нескольких приложений;
исследовательские запросы заключаются в анализе различных вариантов из нескольких источников.

Приведём примеры по каждой категории.

И хотя может показаться, что некоторые из запросов похожи, участники зачастую давали детали, которые помогли в классификации. Так, делая запрос «закажи зонт», пользователь хотел, чтобы помощник отыскал зонты с хорошей оценкой на Amazon и заказал один экземпляр.

Поскольку эта команда включала в себя исследовательский элемент (отыскать хороший зонт, а не любой), мы отнесли его к соответствующей группе. Участник, который просто хотел заказать кофе из Starbucks, напротив, точно знал, чего хотел, поэтому его запрос попал в категорию многошаговых.

Многозадачные запросы требуют от помощника или выполнения нескольких связанных задач («Начни конференцию в Webex...»), или извлечения данных из одного источника и использование их в другом приложении или контексте («Дай знать коллегам, что я опоздаю»).

Отдельные запросы также требовали от ассистента установить действие или на указанное время («Проложи дорогу в ресторан в десять часов»), или на время, которое ему придётся определить самому («Напомни позвонить доктору, когда откроется клиника»).

Большая часть записанных команд приходилась на простые (58% из уникальных запросов); многошаговые и исследовательские запросы также оказались расхожими (по 17% на каждую группу); самыми редкими стали многозадачные команды (9%). Таким образом, 42% запросов не исчерпывались одним шагом.

Простые действия — доминирующая группа задач, которые выполняются с помощью Siri, Google Now и Alexa. Лишь 26% частых пользователей отметили, что решают с ними более сложные задачи. Выходит, существует определённый разрыв между сложностью запросов, которые есть у пользователей, и заданиями, которые они дают современным помощникам (42% требуемых сложных задач против 26% сделанных).

Желтым отмечены запросы из дневникового исследования, зелёным — доля пользователей из исследования методом критических инцидентов, которые дают ассистентам соответствующие задачи

Возможно, когнитивные модели, сложившиеся у людей на счёт современных помощников (на основе опыта), повлияли на пользование ими во время наблюдения. В самом деле, люди немногого от них ждут. Поэтому в теории нынешние ассистенты могут справляться и с более сложными задачами, но пользователи не знают об их возможностях.

Сложность действия — главный фактор, определяющий успешность его выполнения современным ассистентом. Осмысливая корреляцию между сложностью и выполнимостью, мы обнаружили, что нынешним агентам по силам примерно половина простых команд.

Но даже здесь есть над чем поработать, ведь другие группы распределились следующим образом: по 30% на исследовательские и многошаговые запросы и 16% на исследовательские запросы. (Эти значения представляют верхнюю границу — запрос был направлен лучшему агенту в лучшей формулировке; на практике результаты будут ниже.)

Кроме того, пользователи с большим трудом справляются со сложными задачами, задействуя традиционные компьютерные системы: лишь 31% взрослого населения в богатых странах умеет решать с их помощью задачи, сравнимые с исследовательскими и многозадачными в нашей таблице. Если бы ассистенты хорошо справлялись с такими командами, мы бы смогли помочь остальным.

Из отмеченных пользователями задач мы выделили 12 типов:

В первую очередь опрошенным были нужны напоминания (26% уникальных запросов): как простые (оплата счетов, перерыв, стирка, заказ, забрать ребёнка), так и посложнее, где системе понадобилось бы местоположение («Купить открытку, когда буду недалеко от аптеки») или знание о каком-то событии («Скажи, когда в моём любимом кафе появится новый пирог»).

Местные новости (21% запросов): участники постоянно спрашивали о погоде, ситуации на дорогах или маршруте.

Следом за ними идут задачи, связанные с выводом информации («время приёма сына у врача», «в каком фильме снимались Джим Керри и Кэмерон Диаз?»), транзакциями («вызови Uber», «закажи еду из Laughing Planet»), идеями («выбери, что сегодня надеть», «что я могу приготовить из того, что в холодильнике?») и общением («спроси Джеффа, не хочет ли он поесть фо со мной и Дженет», «отправь это видео маме»).

Некоторые команды попали сразу в несколько групп. Среди них, например, «найди рецепт пасты из кабачков и распечатай его» — он попал в категории «Вывод информации» (поиск рецепта) и «Интернет вещей» (распечатка). «Сделай обычный заказ из „Цзинь-Тао”, заберу в пять» также состоял из двух разных шагов — звонка в ресторан (общение) и размещения заказа (транзакция).

Запрос «нужно найти рецепты для ужина [из того, что есть в холодильнике]» включал в себя идею (для готовки) и вывод информации (продукты в холодильнике).

С точки зрения типов задач, легче всего современным помощникам работается в группах «Напоминаниях» и «Местных новостях». 64% команд, связанных с «местными» запросами, оказались вполне по силам Siri, Alexa или Google Assistant, равно как и более 40% запросов, связанных с выводом информации, списками и напоминаниями.

Команд на создание не было. Также современным системам удалось обработать менее 10% запросов из категорий «Интернет вещей» и «Управление предметами...». Ненамного выше оказались «Общение» и «Транзакции» — помощники смогли совладать лишь с 17% запросов (сюда мы не включаем частично выполненные).

Насколько эти типы запросов соответствуют реальному применению? В большинстве случаев «идеальные» запросы, отмеченные участниками дневникового исследования, были разнообразнее, чем реальные запросы, отмеченные пользователями современных ассистентов. Сегодня пользователи выполняют довольно узкое количество задач (погода, маршруты, факты, музыка, будильник); им нужна помощь с другими действиями.

«Умный» анализ и «умное» содействие — две характеристики помощника, требующие сочетания знаний о мире, информации о пользователе и контекста «здесь и сейчас». Что из этого играет самую важную роль? Какие типы сведений используются современными ассистентами?

Чтобы получить ответ, мы распределили каждый запрос в дневниках по категориям согласно типу информации («сведений»), необходимой для обработки запроса.

Персональная информация, включающая:

персональные данные в электронном виде: телефон, адрес, текущая геолокация, контакты, календарь;
физические данные, например содержимое холодильника или показатели здоровья;
история: предыдущие заказы или взаимодействия с приложениями, компаниями, людьми.

Веб: данные, которые можно найти в сети.

Сторонняя информация: персональные данные о других людях или организациях (вроде геолокации).

Данные не требуются: такие задачи, например, завести будильник, содержат все нужные сведения в самой команде.

Большая часть запросов (65%) так или иначе требовала персональных данных (обычно в электронной форме), а 44% — данных, доступных в сети. 22% всех команд оказались замкнутыми, их можно было выполнить без дополнительных сведений.

Сумма значений больше 100%, потому что некоторые запросы одновременно требуют разной информации

Мы также хотели понять, как требования разного типа данных влияют на способность современных агентов выполнить ту или иную команду. Запросы, требующие сторонней или физической информации, сегодня едва ли выполнимы.

Интересным кажется то, что запросы, связанные со знанием прошлых взаимодействий, сегодня выполняются в равной степени плохо. Возможно, это свидетельствует об ограниченных способностях к обучению агентов на современном этапе. Однако стоит учесть, что таких запросов в исследовании было немного.

Последнее: мы также взглянули на сведения, нужные для выполнения задачи, которые люди отмечали в нашем исследовании методом критического инцидентов.

По сравнению с информацией, требуемой для «идеальных» запросов, большая часть этих заданий была сделана с прочной опорой на сеть и электронные данные (особенно контакты и геолокацию). Как и в предыдущей секции, эта тяга к определённым типам служит индикатором слабого разнообразия в среде вирутальных ассистентов.

Жёлтым отмечены типы данных, необходимые для запросов в дневниковом исследовании, зелёным — типы данных, необходимые для запросов, которые указали пользователи в исследовании методом критических инцидентов

В рамках исследования мы попытались выяснить, во-первых, какие задачи пользователей может решить идеальный ассистент и, во-вторых, насколько далеки от него современные «умные» помощники.

Мы знаем, что эффективность — это полезность и удобство в использовании. График выше показывает, что реализованная эффективность современных «умных» ассистентов (зелёная зона) очень низка, особенно приближаясь к сложным заданиями. Потенциальная эффективность намного выше, как показывает полный набор запросов, отмеченных испытуемыми; тут она занимает всю зону ниже верхней линии графика.

Однако разрыв в полезности (синяя часть) и разрыв в удобстве (оранжевая часть) съедают большую часть потенциальной эффективности. Первый возникает из-за того, что некоторыми существующими функциями устройств пользоваться чересчур сложно, а разрыв в удобстве вызван функциями, которых нет. Оба разрыва должны быть закрыты (или существенно сужены), чтобы «умные» помощники стали по-настоящему полезными.

Мы обнаружили: даже представляя идеального ассистента, способного на всё, пользователи чаще давали простые, одношаговые команды, ожидая при этом, что помощник среагирует на естественную речь. Тем не менее нередко они подразумевали наличие у него контекстных знаний, которые ассистент и будет использовать для интерпретации действий и команд. Определённое число задач требовало от системы самостоятельного начала взаимодействия.

Несмотря на то что хотя бы один из современных виртуальных ассистентов способен обработать до 41% запросов, только в 7% случаев пользователи прибегали к помощи Alexa, Google Assistant или Siri.

Эта разница служит примером разрыва между ожиданиями людей и тем, на что способны помощники. Это также отражает и удобство в использовании таких систем: люди не станут пользоваться ассистентом, если проще решить задачу другим способом.

Более того, исследование вскрывает несоответствие между запросами пользователей и положением дел на практике. Частые пользователи Alexa, Google Assistant или Siri сосредотачиваются на нескольких задачах ограниченной сложности, которые зависят от определённого типа данных.

И всё же множество запросов гораздо шире, поэтому, чтобы справиться с ними всеми, «умным» помощникам придётся научиться работать со сложными командами, извлекая пользу не только из текущего местоположения и списка контактов.

5 комментариев

Павел Дементьев

22.01.2019

Люди не станут пользоваться чем угодно, если проще решить задачу другим способом.

Ответить

Stepan Vakhtin

А потому что: вот что мне удалось найти в интернете

Alexey Zhidkov

23.01.2019

Пара слов об эргономике данных девайсов. Дома пользуюсь Amazon Alexa и Google Home. Alexa в России имеет крайне ограниченный функционал, по этой причине используется мной в основном для управления светом. Гугл же удобен для взаимодействий типа "вопрос-ответ" и проигрывания музыки из GPlay. Используется у меня в семье каждый день и на постоянной основе. И вот тут скрывается подводный камень - на самой станции есть сенсорное управление громкостью и паузой, но для переключения трека(новости) приходится шаманить "Ok Google - ... - Next - ..." - занимает секунд 5 и приходится отвлекаться от разговоров/дел. Каким бы ни было продвинутым голосовое управление, оно не совершенно и его однозначно стоит комбинировать с управлением тактильным. Это сохранит много времени и нервов на "лишних" разговорах и ожидании.

Eugene Gultyaev

Что за капитан? Решать будут способом, которым проще решить.

alex d

28.01.2019

Ну вот, казалось бы, проще кликнуть мышкой на компе и запустить музыку. Но купил себе Google Play Mini и теперь запускаю музон только голосом. Хотя для меня это сложнее - вообще не люблю лишний раз рот открывать, а вот мышкой орудовать люблю. Т. е. мышка для меня проще, чем голос. Но почему-то затянуло, и теперь только команды раздаю.

«Люди не станут пользоваться голосовым ассистентом, если проще решить задачу другим способом»

Исследование пользовательской аудитории

С какой долей «идеальных» запросов справляются современные помощники

Начинаем общение: голосовой ввод и содействие

Сложность запросов

Что нужно и что делается

Какие знания требуются помощнику, чтобы справляться с запросами пользователей

Выводы