Принципы проектирования голосовых интерфейсов (VUX): введение

Принципы проектирования голосовых интерфейсов (VUX): введение

Привет, меня зовут Серёжа Кондауров. Я руковожу дизайнерами интерфейсов умных устройств с «Алисой» в «Яндексе».

Голосовое управление устройствами и софтом уже вошло в нашу жизнь. Сейчас с помощью голоса люди управляют колонкой, телефоном, компьютером, телевизором, домом и даже машиной. Это больше не тема для техногиков.

Мне стали предлагать выступить на конференции или создать обучающий курс по голосовому управлению, но, на мой взгляд, на конференциях такой материал слишком тяжело воспринимать, а курс я сделаю примерно никогда. Поэтому решил собрать полезные знания в две-три статьи и опубликовать в свободном доступе. Это первая статья.

О чём и для кого

В этой статье я перечислил четыре шага подготовки к проектированию голосового взаимодействия. Она будет полезна, прежде всего, дизайнерам, а ещё менеджерам и разработчикам (если вы отвечаете за эту часть в продукте).

Зачем

Если вы сами создаёте свои первые голосовые сценарии, здесь найдёте руководство, с чего начать. Если работаете с подрядчиками, статья даст понимание, на что опираться, когда их брифуете. Ну, а вообще это, в конце концов, просто интересно.

Принципы проектирования голосовых интерфейсов (VUX): введение

Голосовые сценарии и ассистенты

Голосовой сценарий — это скрипт общения с пользователем. Виртуальные ассистенты (далее — ВА), например, Алиса, постоянно переключаются между разными сценариями.

Если сильно обобщить, все голосовые сценарии можно разделить на три типа: фактовый вопрос-ответ, продуманный разработчиком диалог и свободный диалог.

Принципы проектирования голосовых интерфейсов (VUX): введение

Фактовый вопрос-ответ — сценарий, при котором пользователь ожидает услышать фактически верный ответ. Например: «какой орех самый крепкий?».

Принципы проектирования голосовых интерфейсов (VUX): введение

Продуманный разработчиком диалог — заранее придуманные сценарии, те, в которых важно сохранить последовательность и чёткость вводимых данных: например, заказ такси или игра с ВА.

Принципы проектирования голосовых интерфейсов (VUX): введение

Свободный диалог — это фристайл, когда ВА имитирует естественный диалог (например, отвечает на вопрос «Алиса, как у тебя дела?»).

Можно представить все три сценария в виде треугольника. Каждый вид сценариев — это вершина. На рёбрах треугольника находятся серые зоны. Каждое ребро обладает свойствами ближайших вершин. В каждом из сценариев используются генеративные нейронные сети, в фактовом сценарии меньше, в продуманном диалоге больше, свободном диалоге ещё больше.

В этой статье я говорю о проектировании продуманных диалогов. О проектировании свободных диалогов, благодаря популярности GPT-like сетей, и без меня написаны тонны статей.

Шаг №1. Анализ ЦА и ожиданий

  1. Кто целевая аудитория?
  2. Какая для неё выгода?
  3. Почему пользователь выберет управление голосом, вместо более привычной альтернативы?
  4. В чём выгода для бизнеса (деньги, лояльность, технопиар…), и как это замерить?

Если хотя бы на один из этих вопросов у вас нет ответа, то проектировать голосовое взаимодействие рано: получится либо бесполезный, либо неудобный, либо слишком дорогой голосовой сценарий.

Принципы проектирования голосовых интерфейсов (VUX): введение

Шаг №2. Высокоуровневое описание сценария

Если на все вопросы выше есть уверенный ответ, смело идём дальше:

  1. сформулируйте основную мысль вашего сценария;
  2. определите цель сценария;
  3. сформулируйте контекст использования сценария: дома, за рулём, на прогулке и т.д.;
  4. изучите прямых и косвенных конкурентов. Прямые конкуренты — те, кто уже решил подобную задачу голосовыми технологиями. Косвенные — это альтернативные платформы и методы, например, приложение на телефоне, помощь соседа и т.д.

Шаг №3. Создание сценария

Напишите короткий диалог пользователя с интерфейсом. Мы для этого используем несколько инструментов:

1. Сначала рекомендую создать каркас сценария. Для этого отлично подходят Miro или Фигджем. Ваши задачи на этапе каркаса: отобразить все возможные развилки в сценарии, избавиться от тупиков, дать возможность возвращаться на предыдущие этапы, проконтролировать, чтобы развилок не было слишком много. Когда перед глазами дерево навыка, эти проблемы становятся заметными. Гораздо легче редактировать дерево сценария до написания детальных реплик. Иногда, если реплики короткие, их можно добавлять прямо в дерево.

Принципы проектирования голосовых интерфейсов (VUX): введение

2. Когда каркас готов, можно прописывать сценарий детальнее. На этом этапе мы переносим его в эксельку. Тут удобно прописывать фразы и подсвечивать их цветом, чтобы не промахнуться в процессе тестирования, а тестировать мы будем часто.

Ещё для эксельки есть классный лайфхак. Мы заранее генерируем фразы Алисы и сохраняем их в mp3. Загружаем их в табличку. Подключаем колонку по Bluetooth. Ведущий нажимает на нужные пункты из скрипта, и из колонки звучит речь Алисы, как будто это рабочий сценарий и это она отвечает пользователю. В итоге возникает полное погружение в сценарий, результат получается гораздо качественнее, чем если зачитывать ответы своим голосом.

Принципы проектирования голосовых интерфейсов (VUX): введение

Шаг №4. Проверка сценария

Сначала посадите перед собой коллегу и проговорите сценарий: вы в роли голосового интерфейса, ваш коллега в роли пользователя. Диалог лучше записывать на диктофон, потому что по ходу общения не будет времени делать записи вручную.

Вы воспроизводите диалог и внимательно анализируете. В нём не должно возникать следующих проблем:

  • когда пользователю непонятно, что от него ожидают;
  • когда непонятно, как уложить в скрипт все возможные ответы пользователя — они слишком разнообразные;
  • когда в сценарии возникают тупики;
  • когда собеседник забывает часть инструкций, потому что они сложные или их много;
  • когда без картинки перед глазами непонятно, что делать.

Если таких проблем не возникло, пора тестировать на потенциальных пользователях. В идеале иметь к этому моменту план всего диалога с предзаписанными фразами ВА, как я описал в шаге №3.

А что делать, если какие-то проблемы всё-таки всплыли, я расскажу уже в следующей статье в пятницу, 4 августа.

На этом всё

Ставьте сердечко, если в статье было что-то интересное, пишите в комментах, о чём ещё хотели бы почитать. И не стесняйтесь добавляться ко мне в Фейсбучек, там я время от времени выкладываю свои выступления о дизайне, арт-дирекшне и вакансии в своей команде.

4040
7 комментариев

это довольно сложный процесс создания голосовых интерфейсов

2
Ответить

Это еще только подготовка 😂

1
Ответить

Не быстрый, это правда.

Но эти шаги способны выполнить 1-2 человека за 3-5 дней. А вот если их пропустить, то есть риск впасть в рекурсию доделок или создать в принципе нерабочий инструмент. Тогда будет потрачено гораздо больше времени.

Описанная в этой статье последовательность действий родилась на опыте запуска фичей разной успешности

Ответить

Реклама фейсбука, это что-то новенькое

Ответить

А с Алисы можно как-нибудь звонить на телефон? (через интернет)
Я не нашёл, только с телефона на Алису.
С Алексы (амазоновская которая) вот можно.

Ответить

Пока можно:
— с колонки на колонку
— через приложение Яндекс людям из списка контактов на телефоне https://yandex.ru/alice/support/assistant/calls-with-alice.html
— либо можно попросить Алису позвонить самому себе на телефон (полезно, если потерял телефон дома)

Ответить

Как же меня бесит спрашиваешь алису погоду или время и начинается... "не хотите послушать подкаст", "а кстати я могу вот еще то-то" - получаешь инфу и еще минуту она там что-то рассказывает и впаривает.

Ответить