Проектирование голосовых интерфейсов (VUX). Чек-лист

Привет, меня зовут Серёжа Кондауров. Я руковожу дизайнерами интерфейсов умных устройств с Алисой в Яндексе.

Это вторая статья о проектировании голосовых интерфейсов. В предыдущей я говорил об общих принципах. За основу обеих статей взял гайды, которые Настя Вишневская написала пару лет назад для внутреннего использования. Дописал их и обновил под новые тренды и возможности UX.

В этот раз поделюсь нашим внутренним чек-листом, по которому мы определяем, можно ли переходить к детальной проработке голосового сценария, или ещё рано. Этот чек-лист составлен на основе качественных и количественных исследований в «Алисе» и, конечно, с оглядкой на лучшие практики других компаний.

Плох тот сценарий, который ломается, когда вы обращаетесь к виртуальному ассистенту (ВА) разговорным языком. Около 90% респондентов считают такой сценарий сложным, а сложными интерфейсами люди стараются не пользоваться.

Для сложных, разветвлённых, профессиональных задач существуют компьютеры и смартфоны. А голосовым интерфейсом люди пользуются, чтобы упростить себе жизнь.

Обращаясь к виртуальному ассистенту, пользователь ожидает получить честный, релевантный, недвусмысленный ответ достаточного объёма. А ещё — моментальный и с минимумом уточнений. Поясню.

Честный — ВА должен давать ответ, основанный на проверяемых фактах, либо заранее предупреждать, что ответ может содержать неточности.

<p>Прямо говорим, что информация неточная — есть только легенды и домыслы</p>

Создаётся впечатление, что кофе точно придумали заваривать в Эфиопии и существует две официальные версии

Релевантный — в своём ответе ВА не должен отклоняться от темы.

Ответ на всё подряд, но не на поставленный вопрос

Недвусмысленный — ВА должен вести рассказ связно и последовательно, подбирая простые слова и формулировки, так чтобы не возникало неверных толкований.

По ответу непонятно, является ли Авиценна открывателем кофе. Факты про лечение и удовольствие не связаны, но из-за того, что они стоят рядом, рождаются новые смыслы

Достаточного объёма — ВА должен отвечать настолько информативно, насколько это требуется: не избыточно и не коротко

Это честный ответ, но слишком короткий и неинформативный. Он моментально рождает много новых вопросов: информация не известна именно ВА? Нет уверенности в какой-то версии на 100%? Не существует вообще никаких версий? Почему пассивно-агрессивный тон?

А здесь слишком много информации. Какой из фактов — ответ на поставленный вопрос?

Моментально — по нашим исследованиям, обратная связь от интерфейса до 500 мс воспринимается как моментальная, до 1100 мс — как быстрая, до 1500 мс — как терпимая. А всё, что выше — медленная или раздражающая. Интересный факт: опытные пользователи ожидают, что ГА будет отвечать на 100 мс быстрее: 400/1000/1400.

С минимумом уточнений — количество уточнений, то есть встречных вопросов от ВА, играет большую роль. Пользователи описывают уточняющие вопросы как утомительные, усложняющие и затягивающие взаимодействие. Чем менее важную для себя задачу решает пользователь, тем меньше он готов дать уточнений.

Например, в сценарии прослушивания музыки риск невелик. Если Алиса включит не то, что хотел пользователь, он может легко повторить или уточнить запрос — это вопрос пары секунд.

Мы не спрашиваем у пользователя: «Какой жанр музыки ты хотел бы послушать?». У нас есть история лайков и мощная система рекомендаций. В крайнем случае, есть топы актуальной музыки. Мы спокойно включаем первый более-менее подходящий трек, потому что здесь для пользователя цена ошибки низкая. По нашим наблюдениям, пользователи готовы променять точность угадывания их желаний на экономию собственных умственных усилий.

Тем не менее, иногда уточнять приходится. Например, когда мы понимаем, что приблизительное угадывание запросов пользователя не решит задачу или даже навредит. Сюда относятся почти все сценарии, касающиеся времени:

Как показывают наши UX-исследования, обычно пользователи описывают голосовые интерфейсы, которые просят больше трёх уточнений, как сложные и нудные. При этом графические интерфейсы с таким же количеством данных воспринимаются как привычные и удобные.

Если голосовой сценарий не имеет смысла без 4-5 уточнений, то, скорее всего, его лучше оставить в виде графического интерфейса. Ещё один вариант: переносить не всю функциональность, а только ту часть сценария, которую можно уложить в три уточняющих вопроса.

Если голосовой сценарий не имеет смысла без 4-5 уточнений, то, скорее всего, его лучше оставить в виде графического интерфейса. Ещё один вариант: переносить не всю функциональность, а только ту часть сценария, которую можно уложить в три уточняющих вопроса.

В некоторых случаях допустимо комбинировать: начинать сценарий с голосового способа взаимодействия и заканчивать в графическом интерфейсе на экране телефона. К этой категории относится множество транзакционных сценариев. Например, если у пользователя нет подписки Яндекс Плюс и он хочет посмотреть фильм на телевизоре с Алисой:

Алиса показывает QR-код на оплату, пользователь его сканирует, и запускается сценарий оплаты на телефоне. Пользователи лояльно относятся к таким вариантам взаимодействия, если речь идёт о покупках.

В целом, чем выше цена ошибки голосового интерфейса, тем больше люди готовы тратить на сценарий времени, умственных усилий и денег.

Надо помнить: почти любой голосовой сценарий имеет предел по времени взаимодействия. Люди относятся к голосовым интерфейсам как к средству упрощения жизни. Если ожидаемого упрощения не происходит, они достают телефон или садятся за компьютер, проклиная глупый голосовой интерфейс.

Как правило, у голосового сценария уже существует аналог в виде визуального интерфейса. Голосовые сценарии отлично проявляют себя, когда у графического аналога глубокая вложенность разделов, то есть в ситуации, когда требуется совершить большое количество осмысленных кликов.

Вместо того чтобы разблокировать телефон, открывать приложение Умный дом с Алисой, искать лампочки, относящиеся к спальне и включать их и настраивать, достаточно произнести 2 фразы, которыми просто описываешь финальный результат

<p>В этом примере голосовой сценарий полностью дублирует длинный путь UI</p>

Голосовой сценарий не должен быть прямой озвучкой того, что уже есть в UI. Чаще всего, общение с ВА — это комбинации команд. ВА должен уметь разбивать естественную речь на набор команд и брать часть выбора на себя. Нельзя вываливать все опции на пользователя.

Классический UI — это точный инструмент. ВА работает грубее, но существенно быстрее — и в этом их ключевая разница.

То есть голосом сформулировать задачу проще, чем нажать серию кнопок на экране. Это похоже на предыдущий пункт. Отличие в том, что здесь решение может быть в пределах одного экрана. Сложность заключается, как правило, в нахождении нужной функциональности на экране.

В целом, мы постоянно работаем над улучшением голосового управления телевизором, потому что пульт — зачастую не самая удобная штука.

Меньше инструкций, меньше интерфейса — меньше риск ошибки. Кстати, в новых колонках у нас появилась технология, с которой достаточно просто включить приложение, а дальше оно само распознает новый девайс, запустит настройку.

Отсутствие графического интерфейса при управлении голосом не должно портить пользовательский опыт.

В этом сценарии ВА взял часть ответов на себя

Как правило, наши пользователи заказывают такси голосом в уже проверенных локациях. Если сомнение не покидает, всегда можно открыть приложение и проверить, куда едет такси.

ВА старается помочь пользователю, но часто сценарии, которые выручают, если перед глазами экран, перестают работать на слух. Навигация по местности, покупка товара, где важен внешний вид, обилие фактов — это всё сценарии, которым нужна визуальная поддержка.

Если ваш сценарий соответствует двум или менее пунктам из чек-листа, то это потенциально сложный сценарий. И при наличии альтернативы пользователи выберут её. В этом случае рекомендую вернуться к идее сценария и либо его перепридумать, либо урезать, либо поискать новые идеи.

Ну, а если ваш сценарий соответствует трём и более пунктам, то у вас хорошие шансы создать что-то очень полезное и популярное.

На этом всё. Надеюсь, эта статья оказалась для вас полезной, или хотя бы просто было интересно почитать что-то о голосовых технологиях. В этом случае не стесняйтесь и ставьте лайки, делитесь мнением в комментах. Добавляйтесь ко мне в фейсбучек — там я время от времени выкладываю свои выступления о дизайне, арт-дирекшне и вакансии в своей команде.

Проектирование голосовых интерфейсов (VUX). Чек-лист

1. Общение выглядит естественно, то есть виртуальный ассистент общается разговорным языком и понимает обычную речь

2. Голосовой интерфейс придерживается максим Пола Грайса

3. У сценария, который вы переносите на голос, многоуровневая навигация в графическом интерфейсе

4. Ваш продукт — многофункциональный комбайн, либо пользователям по какой-то причине неудобно нажимать кнопки

5. Ваш сценарий можно пройти без рук (и не глядя)

Результаты чек-листа