Что не нравится пользователям «умных» голосовых помощников в Google Assistant, Alexa и Siri

Перевод материала Nielsen Norman Group.

Перевод подготовлен совместно с «Юзетикс».

Юзабилити-тестирования показывают, что голосовые и текстовые «умные» помощники хорошо работают c ограниченным числом простых запросов, на которые можно дать короткие ответы. Со всем остальным пользователи испытывают трудности.

Священный Грааль юзабилити заключается в построении интерфейса с нулевыми затратами на взаимодействие. То есть удовлетворить потребности пользователей так, чтобы им не нужно было прикладывать никаких усилий. Хотя интерфейсы ещё не позволяют читать мысли, «умные» помощники, такие как Alexa, Google Assistant и Siri, — первый шаг в этом направлении.

«Умные» помощники сочетают в себе пять базовых технологий пользовательского интерфейса:

Голосовой ввод: команды подаются голосом, а не путём ввода или клика, нажатия на графические элементы.
Понимание естественного языка: пользователи не ограничены использованием определённого, специфичного компьютерного словаря или синтаксиса, но могут выражаться свободно, как в беседе между людьми.
Голосовой вывод: вместо отображения информации на экране помощник проговаривает результат запроса вслух.
«Умная» интерпретация: ассистент использует информацию (например, контекст или прошлое поведение), дополняющую конкретный запрос пользователя, чтобы понять, чего он хочет.
Посредничество: помощник совершает самостоятельные действия, которые пользователь буквально не запрашивал.

Как «умная» интерпретация, так и посредничество требуют, чтобы помощники активно изучали пользователя и могли подстраивать своё поведение в соответствии с его потребностями.

Таким образом, при оценке пользовательского опыта (UX) «умных» помощников необходимо рассмотреть шесть аспектов: каждую из пяти технологий по отдельности, а также шестой аспект — как они работают в совокупности.

Идея объединения нескольких UI-технологий не нова. Тот же принцип лежит в основе самого популярного из графических пользовательских интерфейсов (GUI — graphical user interfaces) — WIMP, что означает windows-icons-menus-pointing device («окна-пиктограммы-меню-указательное устройство»).

Например, можно запускать окна без мыши (использовать Alt + Tab) или использовать мышь без пиктограмм (нажать на слова), но именно в результате сочетания нескольких технологий родился целостный графический интерфейс, который находит широкое применение уже более 30 лет.

Не всегда и не все помощники используют сразу все пять UI-технологий: например, если есть экран, помощники могут использовать визуальный вывод вместо голосового. Тем не менее эти технологии поддерживают и дополняют друг друга, когда между ними есть слаженность.

Например, голосовые команды, как и традиционный стиль взаимодействия на основе команд в целом, имеют присущую им юзабилити-слабость, по сравнению с кликом, — они полагаются на набор воспоминаний, тогда как клик и прямое взаимодействие задействуют узнавание. Однако применение естественного языка потенциально может сделать голосовую команду более простой, чем клик.

Интеграция пяти UI-технологий предполагает новый стиль взаимодействия, который обладает двумя преимуществами:

Пользователи смогут просто формулировать свою цель на естественном языке, без необходимости использовать дополнительный физический интерфейс. Хотя проговаривание и предполагает определённые усилия со стороны пользователя — в теории они меньше, чем когда ему нужно изучить новую UI-технологию, нажимать кнопки или выбирать из списка.
Интерфейс сможет догадываться о целях пользователей и быть проактивным, делая соответствующие предложения на основе контекстной информации или предшествующего поведения пользователя. Так он становится ближе к «чтению мыслей».

Контекстные предложения у нынешних помощников всё ещё довольно ограничены, хотя небольшие шаги в этом направлении предпринимаются — Google Assistant анализирует электронную почту и автоматически добавляет авиарейсы или брони ресторанов в календари.

Siri и Google Assistant предупреждают пользователя о времени, чтобы добраться до места, где он часто бывает. Когда эти контекстные предложения уместны, они плавно продвигают пользователя к достижению цели.

Чтобы лучше понять, какие вызовы стоят перед этими помощниками сегодня, как они помогают пользователям, мы провели два юзабилити-исследования (одно в Нью-Йорке и одно в районе залива Сан-Франциско).

В лабораторию на индивидуальные сессии были приглашены в общей сложности 17 участников — пять в Нью-Йорке, 12 в Калифорнии, все из них являлись постоянными пользователями хотя бы одного из основных «умных» помощников (Alexa, Google Assistant и Siri).

Каждый сеанс состоял из комбинации юзабилити-тестирования (в котором участники выполняли задания модератора, используя Alexa, Google Assistant или Siri) и интервью.

В рамках юзабилити-тестирования мы попросили участников использовать помощника для выполнения различных заданий, начиная с простых (например, узнать погоду на выходной в День независимости, уточнить рабочие часы аптеки неподалеку от Walgreens, узнать, когда родился Джордж Клуни), заканчивая сложными (например, в каком году Стенли Кубрик снял свой второй по счету фильм, загруженность движения по пути к пляжу Мосс в выходные).

В этом материале кратко изложены наши основные выводы.

Наши исследования пользователей показали, что современные «умные» помощники терпят неудачу по всем шести параметрам (пять технологий и их сочетание), что делает общий уровень юзабилити близким к бесполезному — даже в отношении несложных взаимодействий.

Для самых простых взаимодействий устройства соответствуют минимальным требованиям к юзабилити. Несмотря на то, что это противоречит основной предпосылке человеко-ориентированного дизайна, пользователи должны научиться самостоятельно определять, когда «умный» помощник будет полезен, а когда его лучше не использовать.

Наша идеология всегда заключалась в том, что компьютеры должны адаптироваться к людям, а не наоборот. Обещание искусственного интеллекта (ИИ) — это, как правило, высокая адаптивность, но в реальной практике мы этого не видим.

То, как пользователи взаимодействуют с интерфейсами на основе искусственного интеллекта, напоминает тёмные века 1970-х годов: необходимость запоминать загадочные команды, обременительные способы работы, запутанный контент, негибкие взаимодействия — всё, что по сути составляет негативный пользовательский опыт.

Рассмотрим каждую из шести UI-технологий и оценим, насколько хорошо они сработали для пользователей в наших экспериментах. Хотя результаты исследования нельзя назвать воодушевляющими, мы задаёмся вопросом, присущи ли выявленные недостатки этим технологиям по определению, или же они вызваны существующими технологическими ограничениями и в будущем есть надежда на улучшение.

Что не нравится пользователям «умных» голосовых помощников в Google Assistant, Alexa и Siri

Кажется, наше мнение необоснованно? Разве пользовательские интерфейсы на основе ИИ не достигли огромного прогресса в последние годы?

Да, сегодняшние ИИ-продукты лучше, чем многие из систем, которые были разработаны в предыдущие десятилетия. Но и требования к повседневному использованию со стороны среднестатистических людей значительно выше требований, предъявляемых к демо-версии интерфейса выпускника вуза.

Демонстрации, которые мы видели на академических конференциях 20 лет назад, были впечатляющими и имели большие перспективы для взаимодействия на основе ИИ. Сегодня продукты стали лучше, но всё же не соответствуют обещанному уровню.

Обещание всё ещё в силе, и люди уже получают некоторую пользу от своих «умных» помощников. Но требуются огромные достижения в области такого взаимодействия, чтобы его можно было широко применять.

Можно провести аналогию с развитием мобильных устройств: когда мы тестировали юзабилити мобильных телефонов в 2000 году, результаты были ужасными. Тем не менее обещание сервиса мобильных информационных услуг было ясным, и многие люди к тому времени уже активно использовали особенно полезную простую услугу: текстовые сообщения от человека к человеку.

Потребовалось ещё много лет, прежде чем технологии продвинулись вперёд и стало проще их интегрировать, чтобы впервые достойно воплотить их в смартфоне, что привело к приемлемому, хотя и всё ещё низкому уровню юзабилити мобильных телефонов к 2009 году. Ещё одно десятилетие усовершенствований — и мобильные пользовательские интерфейсы стали довольно хороши.

Уровень пользовательских интерфейсов на основе ИИ, пожалуй, немного выше, чем юзабилити мобильных телефонов в 2000 году, но не намного. Потребуется ли два десятилетия, чтобы достичь хорошего юзабилити «умных» помощников? Некоторые из проблем, требующих решения, настолько трудоемки, что даже эта оценка может быть чересчур оптимистичной.

Но, как и в случае с мобильными устройствами, преимущества пользовательских интерфейсов на основе ИИ достаточно велики, так что даже средний уровень (то есть удовлетворительное, но не хорошее юзабилити) может быть приемлемым, и его можно достигнуть намного раньше.

Большинство пользователей сообщили, что они используют «умных» помощников в двух типах ситуаций:

Когда их руки заняты — например, во время вождения или приготовления пищи.
Когда задать вопрос быстрее, чем печатать его и читать результаты.

Вторая ситуация заслуживает обсуждения. У большинства людей были ясные ожидания относительно того, что могут сделать помощники, и они часто говорили, что не будут использовать помощника для сложных запросов.

Они чувствовали, что запрос с одним ясным ответом давал больше шансов, что помощник ответит правильно, а два участника явно упомянули вопросы 5W1H (Who, What, Where, When, Why, How). Напротив, более тонкие исследовательские информационные потребности были лучше решены посредством веб-поиска или другого взаимодействия с экранным устройством, таким как телефон или планшет.

Однако некоторые люди считали, что помощники были способны выполнить даже сложные задачи, но при условии, что им задали правильный вопрос. Один из пользователей сказал: «Я могу делать всё на своем телефоне при помощи Siri. Сложные вопросы я должен упростить, чтобы получить результат».

Большинство людей, однако, посчитали, что раздумья о правильной формулировке вопроса не стоят потраченных усилий. Как сказал один из пользователей: «Alexa — это как инопланетянин, я должен все объяснить ей. Она годится только для простых запросов. Я должен сказать ей всё. Мне нравится просто задавать вопросы, а не думать [о том, как формулировать вопросы]».

Одна из областей, в которой голосовые помощники облегчают взаимодействие, это диктовка: длинные сообщения или поисковые запросы легче сказать голосом, чем напечатать, особенно на мобильных устройствах, где крошечная клавиатура располагает к ошибкам, медленно работает и в целом вызывает раздражение.

Участники обычно отмечали, что диктовка была несовершенной, выручала в тех случаях, когда им было сложно печатать (например, когда они гуляли, водили, готовили или просто были далеко от устройства с реальной клавиатурой), и что они избегали диктовки, если в тексте использовалась уникальная терминология, которая могла быть неверно распознана.

Они также сообщили о сложностях с соблюдением пунктуации (либо помощник переставал слушать, если пользователь остановился, чтобы обозначить конец предложения, либо помощник полностью игнорировал пунктуацию, требуя от пользователя последующего исправления и редактирования текста).

Когда участники тратили время, чтобы подумать о том, как сформулировать запрос, а затем сообщали его помощнику целиком, помощник обычно мог его верно понять.

Один пользователь сказал: «Необходимо подумать о своем вопросе, прежде чем задавать его, так как его трудно скорректировать в процессе. Надо подумать заранее, потому что это не как с человеком, в разговоре с которым вы можете быть [нечетким]».

Другой сказал: «Я чувствую себя почти роботом, когда задаю вопросы, потому что должен сказать всё ясно и лаконично. Когда пытаюсь дать команду или задать конкретный вопрос, то не слежу за интонацией. Нужно просто подобрать правильные слова, интонация голоса не учитывается».

Но многие участники начинали говорить, прежде чем сформулировали запрос полностью (как это обычно происходит в беседе с человеком), и иногда прерывались в поисках лучшего слова. Такие паузы естественны в разговоре, но помощники неправильно их истолковывают и часто спешат с ответом.

Конечно, ответы на такие неполные запросы были в большинстве случаев неподходящими, общий эффект был разочаровывающим: участники жаловались, что их прервали, что помощник «перебивал их» или был «груб». Некоторые даже доходили до того, что начинали ругать помощника за это («Alexa, это грубо!»).

Когда людям приходилось повторять запрос, который был неверно понят, они часто произносили слова нарочито громко (как будто они разговаривали с человеком с нарушением слуха).

Большинство участников сочли, что сложносоставные предложения (например, «В какое время я должен уехать в Мосс-Бич в субботу, если я хочу избежать загруженного дорожного трафика?» или «Найти статус полёта рейса из Лондона в Ванкувер, который уходит в 16:55 сегодня») вряд ли будут поняты помощниками.

Некоторые пытались разбить такие предложения на несколько запросов. Например, один из участников, который хотел узнать, когда был снят предпоследний фильм Кубрика, попросил список фильмов Кубрика, а затем планировал задать вопросы о втором с конца элемента в списке. К сожалению, Siri оказалась довольно бесполезной, потому что она просто предоставляла фильмы Кубрика без какого-либо порядка.

У нескольких участников были иностранные акценты, и они сообщали о своем ощущении, что помощник не всегда распознавал произношение, потому приходилось часто повторять. Эти люди были недовольны и считали, что помощники должны научиться справляться с различными языками и практиками говорения.

Помимо акцента, были еще три фактора, которые повлияли на успешность использования помощника у таких пользователей:

Они делали ещё больше пауз, чем носители языка. Эти паузы часто интерпретировались помощником как конец запроса.
Они, как правило, исправляли себя, когда чувствовали, что неправильно произнесли слово, в итоге говорили одно и то же слово дважды. Эти повторяющиеся слова, казалось, путали помощников, особенно Alexa.
Порой они использовали редко встречающиеся формулировки. Например, один из участников спросил: «Alexa, when did Great Britain’s soccer team play in the soccer championship?». Alexa не смогла найти ответ на этот вопрос.

К счастью, понимание акцентов — это область, где компьютеры потенциально могут превзойти реальность (better than reality principle): они могут распознавать нестандартное произношение слова намного лучше, чем это способен сделать человек.

Компьютер не заботится о том, как вы произносите определенное слово. Если только он не обучен распознавать лишь определённый звук, он сможет понять, что несколько отличающихся по звучанию слов представляют одно и то же слово. Таким образом, мы считаем, что улучшенное распознавание акцентов — это только вопрос времени. Решение других вопросов, обсуждаемых в этом разделе, будет гораздо более сложной задачей.

Некоторые участники жаловались, что помощник говорил слишком быстро — и не было возможности заставить его повторить ответ. Участники не могли удерживать всю информацию в памяти, особенно, когда ответ был слишком длинным или сложным.

Например, прежде чем озвучить стоимость ипотеки, Alexa с помощью навыка Lending Tree просила пользователя подтвердить, что все введенные данные были правильными, указав адрес и условия ипотеки, а затем перечислив набор команд для редактирования информации, если это было необходимо.

Когда помощники неправильно понимали вопрос и предлагали неправильный ответ, пользователи раздражались. Люди были возмущены необходимостью ждать длинный ответ, который был совершенно неактуален, и изо всех сил пытались заставить помощника остановиться («Alexa, остановись»).

Мне не нравится, что [Alexa] не замолкает, когда я начинаю с ней разговаривать. Это должно быть больше похоже на человеческое взаимодействие. Было бы идеально, если бы можно было ограничиться чем-то меньшим, чем фразой «Alexa, остановись» — что-то вроде «Ок» или «Достаточно», или на что-то из того, что я бормочу. Это как разговаривать с кем-то, кто просто говорит и говорит, и вы пытаетесь как-то вклиниться, чтобы остановить собеседника.
Один из участников исследования

Но правильные ответы помощников зачастую были слишком многословными. Одна из пользовательниц пожаловалась — когда она попыталась добавить предметы в список продуктов, Alexa подтверждала, что «товар добавлен в список покупок» после добавления каждого продукта. Для повторяющейся задачи слов было слишком много.

Другой пользователь назвал Google Assistant «слишком болтливым», когда тот предоставил дополнительную информацию на запрос о времени работы аптеки. Участница была не очень довольна, когда Alexa прочитала подробное описание каждого рецепта из списка рецептов тирамису, включая упоминание (некоторых) довольно очевидных и повторяющихся ингредиентов — таких как яйца.

Чаще всего «умными» помощниками пользуются во время управлением автомобиля, на кухне или в других подобных ситуациях, когда руки заняты. Наши пользователи посчитали, что голосовой ответ превосходит экранный ответ в подавляющем большинстве случаев.

(Исключения составляли ситуации, в которых ответ содержал конфиденциальную информацию — например, одна женщина возмущалась тем, что её запись к врачу была прочитана вслух: «Я предпочла бы, чтобы было произнесено слово “встреча”».)

У большинства голосовых помощников нет экрана, поэтому они должны выдавать ответы в голосовом формате. Это ограничение заставило некоторых участников отдать предпочтение исключительно голосовым помощникам, нежели их аналогам на смартфонах, где полимодальное взаимодействие скорее утомляло.

Помощники на телефоне обычно выдавали список результатов поиска, когда у них не было готового ответа, вынуждая пользователей взаимодействовать с экраном. Люди были разочарованы, когда им приходилось использовать глаза и пальцы, чтобы просмотреть список результатов.

Один из комментариев пользователя был таким: «Это не дало мне правильного ответа. Он [Помощник] дал мне статьи и ссылки. Он не говорит мне то, о чем я спросил».

Когда правильный ответ озвучивался, пользователи говорили, что «это было похоже на магию». Участники спросили у Google Assistant: «Сколько дней я должен провести в Праге?». Ответ раздался громко и ясно: «Согласно Quora, в идеале вам следует провести три–четыре дня в Праге».

Пользователь сказал: «Это то, что я искал в других [помощниках]; он читал мне информацию вслух и в то же время показывал информацию».

Такой опыт был наиболее полезен для участников, но в нашем исследовании он встречался редко: хотя эта задача выполнялась несколькими участниками, только одному удалось найти «правильную» формулировку запроса, которая вызывала чёткий вербальный ответ.

Другие шесть, которые были вариациями одного и того же вопроса («Окей, Google, как ты думаешь, какое количество времени было бы достаточно для отдыха в Праге?», «Окей, Google, как долго я должен отдыхать в Праге?», «Siri, на сколько дней мне следует поехать в Прагу?», «Siri, если я поеду в Прагу, на сколько я должен поехать?») выдавали список ссылок одновременно с Siri и Google Assistant, за исключением последнего запроса, на который были выданы данные о загруженности дорог в Праге.

Что касается Siri, то была еще одна причина, по которой список ссылок прерывал взаимодействие: те, кто нажимал на ссылку в списке результатов, перенаправлялись в браузер или в другое приложение, и некоторые пользователи не знали, как вернуться обратно в список, чтобы продолжить проверку других результатов выдачи.

Одна пользовательница iPhone нажала на ресторан, чтобы увидеть его на карте, а затем попыталась вернуться к списку других ресторанов. Она сказала:

О нет, [рестораны] исчезли… Есть одна вещь, которая мне не нравится — я не знаю, как увидеть прежний запрос Siri.
Например, если я за рулем, но действительно хочу найти, кто снялся в фильме, я могла бы сказать: «Добавь это в мой список дел, чтобы сделать позже» или «Просмотреть».
Но я не буду заниматься этим, пока не доберусь до места назначения. К тому времени, когда я там окажусь, результат исчезнет.
Поэтому этот список ресторанов пропал, когда я коснулась карт. Придется начинать сначала

(К списку ресторанов можно было вернуться, если бы пользователь нажал на кнопку «Назад в приложение» в верхнем левом углу экрана, но эта кнопка крошечная, многие пользователи не знакомы с ней. Однако главное во всем этом — отсутствие возможности восстановить историю взаимодействий. Это определенно слабость Siri, по сравнению с другими «умными» помощниками. Даже Alexa позволяет пользователям просматривать историю своих запросов в мобильном приложении Alexa.)

С экранными помощниками возникала проблема при распознавании пользовательского запроса, когда оно занимало время. Одна из участниц подумала, что, поскольку она не видела ни одного из ее произнесенных слов на экране, Siri ее не услышала, поэтому она повторяла первые несколько слов запроса по несколько раз. В результате помощник не мог верно понять получившееся высказывание.

Иногда Alexa открыто признавала, что ответа у неё нет. Когда она предлагала информацию, которая тоже могла быть актуальна, хотя и не являлась прямым ответом на запрос пользователя, участники оставались довольны. Например, один пользователь спросил об аренде недвижимости в Уиллоу Глен (окрестности в Сан-Хосе, Калифорния), и Alexa сказала, что не знает ответа, но предложила вместо этого среднюю цену на аренду в районе залива Сан-Франциско.

Пользователь обрадовался, что помощник определил Уиллоу Глен как часть района залива, и был удовлетворен ответом. Другой пользователь спросил: «Alexa, сколько стоит двухкомнатная квартира в Маунтин-Вью?».

И когда помощник ответил «Извините, я не знаю этого. Всё что я могу сделать сейчас — посмотреть номера телефонов, часы работы и адреса», пользователь сказал в ответ: «Спасибо. Это действительно полезно». Как бы «Хорошо, я не могу этого сделать, но я могу предложить другой вариант».

Когда вместо голосового ответа Siri или Google Assistant показывали набор результатов на экране, первой реакцией было разочарование, как уже упоминалось выше. Если результаты на экране были релевантны их запросу, люди иногда чувствовали, что опыт был приемлемым или даже хорошим.

(Такое восприятие может быть специфичным для лабораторных условий, когда руки участников были свободными, и они могли взаимодействовать со своим устройством.)

Многие считали, что они знают, как искать и выбирать соответствующие результаты из выдачи лучше, чем помощник (в особенности Siri). Когда помощник возвращал пользователя к результатам поиска, некоторые говорили, что им придётся поискать ещё как-нибудь.

Несколько человек пытались сформулировать поисковые запросы вслух, когда разговаривали с помощником, и делали ставку на то, что первые несколько результатов будут достаточно хорошими. Обычно эти люди использовали помощника (чаще всего Google Assistant) в качестве голосового ввода в поисковую систему.

Люди знали, что «умные» помощники несовершенны. Таким образом, даже когда помощник давал ответ, они порой сомневались в правильности ответа — не зная наверняка, правильно ли он был понят, или помощник услышал только часть запроса. Как сказал один из пользователей: «Я не верю, что Siri даст мне ответ, который меня устроит».

Например, в ответ на просьбу найти рецепт, Alexa предоставила «лучший рецепт» с возможностью узнать больше. Но она не дала информации о том, что означало «лучший», и как были выбраны рецепты. Были ли эти рецепты с высоким рейтингом? Рецепты, опубликованные известным блогом или кулинарным сайтом?

Люди должны были доверять выбору, который сделала Alexa, без каких-либо подтверждающих доказательств в виде оценок или количества отзывов. Особенно в случае с Alexa, где пользователи не могли видеть результаты и просто прослушивали их список, вопрос о том, как именно был собран список, был важен для некоторых пользователей.

Однако даже помощники, встроенные в смартфон, вызывали недоверие, хотя у пользователей была возможность проверить корректность рекомендаций на экране. Например, в одном из заданий исследования пользователи попросили Siri найти рестораны по дороге в Мосс-Бич.

Siri выдала список ресторанов с соответствующими рейтингами Yelp (вроде бы ответив на запрос), но не показала их на карте, чтобы пользователь смог убедиться, что рестораны действительно удовлетворяют указанному критерию. Доступ к карте со всеми ресторанами был также трудоемким: нужно было выбрать ресторан и кликнуть, чтобы показать его на карте; тогда на карте были показаны все рестораны, выбранные Siri.

Siri не показывала список ресторанов на карте. Чтобы посмотреть карту, пользователям нужно было выбрать ресторан и показать его на карте. Когда они это делали, некоторые пользователи не знали, как восстановить список ресторанов (это можно сделать нажав кнопку «Назад в приложение» Siri в левом верхнем углу экрана).

Для сравнения, Google Assistant намного лучше справился с тем же запросом: он показал все предложенные рестораны на карте, и пользователи смогли увидеть, что (к сожалению) результаты были сконцентрированы в конце маршрута, а не по дороге, как того требовало условие.

В нашем исследовании задачи, связанные со сравнением, имели особенно плохое юзабилити по нескольким причинам:

Речь — неэффективная модальность вывода. Требуется много времени, чтобы послушать помощника, который зачитывает каждую возможную альтернативу, и пользователи раздражаются, выслушивая длинную речь помощника по поводу каждой опции. Многословность помощника особенно расстраивала, когда участник быстро понял, что не заинтересован в текущей альтернативе, но тем не менее вынужден выслушать до конца Alexa или Siri. Если два человека разговаривают друг с другом, они могут использовать сигналы интонации, лица или тела, чтобы направлять разговор в нужном направлении, интересном для обоих. Но голосовые помощники не могут понять, когда пользователь не заинтересован в альтернативе, а потому перестать говорить о ней.
У пользователей не было возможности быстро перемещаться вперед-назад, чтобы сравнивать варианты между собой. Они были вынуждены хранить всю информацию в своей памяти, чтобы сравнить текущий элемент с последующими.

Например, предлагая разные рецепты тирамису для пользователя, Alexa перечислила название рецепта, время, необходимое для его приготовления, а затем сказала: «Вы можете попросить дополнительную информацию, а для получения большего количества рецептов скажите “Далее”».

Если пользователь сказал «Далее», было трудно вернуться назад и обратиться к предыдущему рецепту. Этот стиль взаимодействия предполагал, что пользователь удовлетворится первым минимально приемлемым вариантом, а не будет сравнивать плюсы и минусы различных альтернатив.

Для некоторых простых задач, без каких-либо последствий от принятия решения, вариант, когда пользователь удовлетворяется первой подходящей опцией (satisficing), может быть разумной стратегией выбора, но в нашем исследовании, даже при выборе рецепта для ужина, пользователи хотели провести некоторые сравнения.

Использование нескольких критериев для выбора делает задачу еще сложнее. Например, при использовании Google Assistant для сравнения ресторанов пиццы в Нью-Йорке пользователи не могли эффективно сравнивать, насколько далеко они располагались, а затем выбирать среди близлежащих вариантов, исходя из количества звезд в отзывах. Вся эта информация была представлена для каждого ресторана в отдельности, и пользователи сохраняли все эти детали в своей рабочей памяти, чтобы сравнивать разные рестораны между собой.

Недостаток сопроводительных визуальных деталей для каждого варианта также имел значение — в особенности в ситуациях поиска интернет-магазинов, ресторанов или гостиниц.

В нашем исследовании пользователи регулярно отказывались от покупки товара, не имея возможности просмотреть изображения, чтобы оценить его, а также удостовериться, что это был нужный товар. Риск ошибок для продуктов с неоднозначными или похожими названиями был слишком высок.

Один из участников остался неудовлетворен ответом Alexa о текущей цене на биткоина, так как она не может сообщать об изменениях оперативно, а это ключевой фактор для людей, зарабатывающих на быстрых колебаниях криптовалюты.

При работе с Alexa и Google Assistant пользователи могут получить доступ к специальным «приложениям» (так называемые «навыки» в экосистеме Amazon и «действия» в Google), заточенные под конкретные задачи.

Теоретически навыки и действия могут расширить возможности подобных систем, но в нашем исследовании они оказались практически бесполезными. Большинство пользователей Alexa не знали об этих навыках; некоторые сталкивались с ними ранее, устанавливали один или два навыка, а затем полностью забывали об их существовании.

У навыков Alexa есть две большие проблемы, затрудняющие их использование:

Они требуют, чтобы пользователи точно помнили имя навыка. Хотя вы можете спросить Alexa, какие навыки в настоящее время установлены на вашем устройстве, это бесполезно, потому что Alexa начинает описывать их один за другим. Когда вы доберётесь до третьего навыка, вам не захочется слушать дальше.
Они требуют от пользователей запоминания волшебных слов для вызова навыка. Теоретически это «play <skill>», «talk to <skill>», «ask <skill> <specific question>», но на практике нашим участникам не удалось заставить некоторые из этих фраз работать: одно слово, казалось, подходит одному навыку, но не подходит другому. (Мы попросили людей перейти на страницу навыков в приложении Alexa, и иногда они пробовали фразы, перечисленные там в качестве примеров, и даже они не срабатывали должным образом.)

Один человек рассказал, что главная причина, по которой он купил устройство Echo, — возможность управлять своей домашней развлекательной системой с помощью пульта Harmony, но затем попытался вспомнить точные слова, которые он должен был использовать для вызова навыка Harmony, и в итоге отказался от использования.

Люди были еще менее знакомы с действиями Google Assistant, чем с навыками Alexa. Один пользователь попросил построить маршрут к Мосс-Бич, а затем, получив результат, продолжил с просьбой «как насчет этого уик-энда» (что означает, что нужно проложить маршрут, как если бы он собирался поехать туда в выходные).

Google Assistant ответил: «Конечно, для этого вы можете поговорить с Solar Flair. Это подходит?» Пользователь сказал «да» и случайно оказался в действии Solar Flair, который, попросив место, предложил «до 10 в Мосс-Бич».

Это предложение оставило пользователя в недоумении. (Как оказалось, Solar Flair выгружает данные УФ-индекса для местоположения.) Пользователь прокомментировал: «В этот момент я почувствовал себя неловко, так как у это новое приложение для меня приложения, я не знаю, что оно из себя представляет».

Один пользователь случайно оказался в действии Solar Flair для Google Assistant, так как он пытался построить маршрут до Мосс-Бич в выходные дни.

Несмотря на то, что порой действие (или навык) может быть целесообразным, он должен сопровождаться некоторой базовой информацией о приложении.

Даже когда люди, наконец, смогли получить доступ к одному из навыков Alexa, взаимодействие с ним было непростым. В отличие от самой Alexa, которая понимала язык в относительно свободной форме, навыки требовали ограниченного набора ответов. Во многом они казались похожими на традиционные интерактивные системы голосового ответа, которые требуют от пользователей сделать выбор, произнеся определенное слово или номер.

Люди не понимали разницы между режимом «ограниченный язык» (restricted-language) и режимом «нормальный язык» (normal-language), и многие из взаимодействий с навыками провалились, потому что пользователи не нашли подходящего способа поговорить с приложением.

В большинстве случаев они просто игнорировали инструкции и формулировали свои ответы и запросы в свободной форме. Такое поведение создавало трудности и приводило к повторению ответов навыками.

Например, навык Restaurant Explorer не позволил пользователям обратиться к ресторанам, используя их названия. Сделать это можно было с помощью: «первый», «второй» или «третий».

Навык Lonely Planet требовал от пользователей произносить ключевые слова, такие как best time to go («лучшее время для визита»), и не понимал вопросов вроде: «Какие события в Сиднее пройдут в июле 2018 года?».

Когда пользователи задавали этот или другой вопрос не из скрипта, навык повторял набор общих фактов о Сиднее. Один из участников прокомментировал: «Это слишком много. Это как если бы я слушал энциклопедию — это не интерактивно. Он просто рассказывает мне факты, ему все равно, хочу ли я их слушать».

Навык Air Canada также предоставлял пользователям ограниченную функциональность и требовал конкретной формулировки. Когда люди спрашивали: «Каков статус полета из Сан-Франциско в Ванкувер, который уходит в 16:55», навык игнорировал все слова, кроме «четырех пятидесяти пяти», которые он интерпретировал как номер рейса.

Навыки также раздражали своей «вводной» частью, которая объединяла в себе роль «всплывающего» экрана и инструкции. Таким (длительным) введением навыки приветствовали пользователя и перечисляли список доступных командных слов. К сожалению, эти введения часто повторялись. И как это бывает со всеми инструкциями, люди в значительной степени игнорировали их, стремясь начать свою работу с навыком.

Навыки работали лучше, когда они задавали пользователям конкретные вопросы и позволяли им давать ответы. Но даже там была проблема с имеющимися ожиданиями: один пользователь, взаимодействующий с навыком Lending Tree, жаловался, что навык начал задавать вопросы, не сообщив при этом:

зачем этот ответ нужен;
не дав уверенности, что ответ вообще существует.

Лучшим ответом на ее запрос о ставках по ипотечным кредитам по индексу 94087 был бы ряд значений, за которым следует возможность продолжить и ответить на некоторые вопросы, чтобы получить точную ставку.

Еще одна проблема, вызванная навыками и действиями, это дезориентация пользователей: участники не были уверены, что они всё еще взаимодействуют с навыком, и что они могут возобновить нормальное взаимодействие с Alexa. Один из участников попытался решить эту проблему, обратившись к Alexa прямо: «Alexa, мы все еще в [навыке] Woot?», чтобы выяснить, что ей нужно делать дальше.

(Этот вопрос является признаком пользовательского интерфейса, который полностью провалил первую эвристику юзабилити — видимость статуса системы.)

Общая проблема с помощниками заключалась в том, что они не очень хорошо интегрировались в виртуальные экосистемы, в которых пользователи находились. Пользователи iPhone жаловались на отсутствие интеграции между Siri и различными приложениями, которые они хотели использовать, — Spotify для воспроизведения музыки, Google Maps для маршрутов и так далее.

Многие считают, что Siri была оптимизирована для приложений и устройств Apple, но не говорила с приложениями и услугами, которые у них были.

Пользователи Alexa также жаловались на то, что услуги Amazon имеют приоритет — многие уже подписались на Spotify или Apple Music и считали, что расточительно подписываться ещё и на Amazon Music, чтобы слушать музыку на устройстве Echo.

Агрессивное продвижение собственных услуг компании заставляло пользователей учиться формулировать запросы, чтобы обойти эти ограничения: «Когда я говорю про музыку, она говорит мне, что у меня нет Amazon Music, поэтому я должен быть предельно ясным и сказать: «Играйте в iHeart Radio».

Сегодняшние «умные» помощники все еще далеки от прохождения теста Тьюринга — в большинстве взаимодействий люди легко поймут, что они разговаривают не с человеком. Хотя пользователи наделяют их человеческими качествами, у них довольно низкие ожидания относительно этих помощников, оставляя им лишь фактические вопросы, предполагающие однозначные ответы.

Несмотря на то, что основным препятствием, вероятно, является улучшение естественного языка и обработка диалога (действительно сложная проблема), многие более мелкие проблемы могут быть исправлены с помощью продуманного дизайна.

#siri #googleassistant #alexa

Что не нравится пользователям «умных» голосовых помощников в Google Assistant, Alexa и Siri

Резюме

Характеристики пользовательского интерфейса

Исследования пользователей

Результаты: реальное удобство использования значительно ниже ожидаемого

Почему люди используют помощников

Разговоры с помощником

Пользователи, не являющиеся носителями английского языка

Выдача результатов запроса

Язык помощника

Голосовой вывод и экранный вывод

Неполные ответы

Доверие к результатам

Плохая поддержка для сравнения и покупок

Навыки и действия

Взаимодействие с навыками

Интеграция с другими приложениями

Вывод