Преимущества и недостатки голосовых интерфейсов

Пересказ доклада UX-исследователя и экс-специалиста по речевым интерфейсам в Google Константина Самойлова о возможностях существующих виртуальных ассистентов.

Доклад рассказан на UX-марафоне «Взаимодействие будущего» 6 июля 2017 года, когда голосового помощника «Яндекса» ещё не было.

Чтобы не было путаницы, важно договориться, что в принципе понимается под голосовым интерфейсом (ГИ). Задача распознавания голоса активно решается. Его качество даже для не английского языка в неидеальных условиях (с акцентами и интонациями) составляет 95−98%. Если натренировать модель, качество можно повысить.

Кроме распознавания и генерации голоса есть три составляющих, о которых часто забывают. Без них голосовое взаимодействие с системой практически невозможно.

Если говорить о ГИ как о замене печатания на клавиатуре или касания экрана, реализовать его просто — достаточно реализовать ввод команд голосом.

Но это не будет работать, так как язык команд не естественен для человека. В понимании пользователей преимущество голосового интерфейса заключается в том, что ему не надо учиться. Мы умеем говорить, мы — эксперты по взаимодействию друг с другом.

Сейчас язык взаимодействия со всеми существующими системами не естественный. Можно сказать «Алекса, начни играть такой-то трек», но это определённая грамматика, которой обучена система и которая на самом деле скрыта от пользователя.

Даже если мы можем голосом передавать команды в компьютер, система всё равно не будет работать. Предполагается, что все данные вводятся в самом начале. В программировании, если разработчик ввёл неправильную команду, система не уточняет, что именно он имел в виду. Как правило, она просто не работает. Должен быть диалог.

Та же Alexa работает на маленьком островке ответственности. В соответствии с заложенными алгоритмами она ожидает получить от пользователя определённые аргументы. Ожидания системы ограничивают грамматику и словарный запас, которые пользователь может использовать.

В Google разработчики продумали, какую грамматику и типы слов в английском языке могут использовать люди для самых распространённых задач — вроде установки будильника или создания напоминания.

Четыре года назад начали проводить тесты. На первом же тесте пользователь сказал что-то, чего разработчики не планировали. Система не сработала, разработчики сказали: «Чёрт, мы об этом не подумали».

Через три года в улучшенной версии той же системы пользователь снова произнёс что-то такое, от чего она не сработала, и разработчики сказали: «Чёрт, об этом мы тоже не подумали». Шло время, развивалось дерево решений и грамматики для конкретной задачи, и каждый новый тест выявлял исключение, которое не учитывали разработчики.

Естественный язык, диалог и словарный запас с грамматикой — фундаментальные вопросы, которые надо решить, чтобы ГИ на самом деле работал.

В обсуждениях голосовых и диалоговых интерфейсов обычно затрагивают целый спектр систем. Начиная с ботов, которые отвечают на самые простые вопросы и невпопад шутят, и заканчивая сложными системами, которые используются на промышленном уровне. Например, на удивление хорошая система подачи налоговой декларации в Англии.

Основные игроки:

Alexa от Amazon.
Siri от Apple.
OK Google.
Cortana от Microsoft (которой мало кто пользуется).

Samsung делает свою новую систему под названием Vera. Alibaba — помощника для китайских пользователей. Рынок взорвался, все работают в этой области.

Но возникла парадоксальная ситуация. Компании, обладающие ресурсами, знаниями и навыками для значительного шага вперёд и сильного изменения индустрии, не заинтересованы в этом шаге. ГИ и голосовые ассистенты — инновация, которая меняет текущее положение дел (disruptive technology).

Google зарабатывает на рекламе. Если вместо ссылок, рядом с которыми показывается реклама, пользователи станут получать готовый ответ, возникнет вопрос — что делать с рекламой.

Siri — достаточно хороший ассистент, который стимулирует продажи iPhone. Она выполняет свои задачи, и компании нет смысла делать что-то новое, что изменит экосистему приложений App Store.

Нынешняя модель взаимодействия человека с компьютером — ящик с инструментами. Мы находим инструмент, кладём его в ящик и в определённый момент используем для достижения цели. Мы сами отвечаем за поиск и владение инструментами и сами должны понимать, когда и в какой последовательности их использовать.

Преимущество ГИ в том, что мы выражаем своё желание естественным образом. Естественно сказать «Дорогая, принеси мне, пожалуйста, чай» — мы говорим о нужном результате, а не проговариваем все шаги, которые для этого необходимы.

Фундаментальное изменение модели взаимодействия приведёт к тому, что отдельные инструменты будут не нужны.

Пользователи ожидают, что можно естественным образом выражать свои желания, а система будет их понимать. Система должна подстраиваться под человека, а не наоборот. Поэтому проектирование ГИ — это в большей степени работа над пониманием человеческих особенностей.

Одна девушка трижды участвовала в тестировании. Во второй раз, когда система уже работала достаточно хорошо, её реакция была «О боже мой, эта штука живёт в моём телефоне, теперь моя жизнь изменится». На третьем тестировании спустя месяц она сказала, что ни разу не использовала систему и не собирается.

Хоть система и работала в большинстве случаев, девушка ей просто не доверяла. Доверие — не технический вопрос, но если его не решить, вся остальная работа будет проделана зря.

Доверие противоположно контролю. Поговорка «Доверяй, но проверяй» — нонсенс. Не бывает, чтобы вы пришли домой и жена вам сказала: «Дорогой, ты вернулся в 12 часов ночи. Ты говорил, что на совещании. Поэтому я позвонила всем твоим друзьям, в твою компанию и твоему водителю, и ты действительно был на совещании. Я тебе доверяю, но проверяю». Такого не бывает.

Сначала мы узнаём, как система справляется, а потом начинаем делегировать ей задачи. Она становится чёрным ящиком — мы не знаем, как она это делает. Как и с живым ассистентом, мы отдаём контроль и заменяем его доверием.

Даже простая задача вроде установки будильника в определённом контексте не может быть так же легко делегирована. Одно дело — поставить будильник на субботу, чтобы просто не проспать до полудня. Другое — на 5 утра, чтобы приехать в аэропорт и встретить родителей. Люди не понимали, насколько система может ошибаться, поэтому не использовали её вовсе.

Уникальность голосового интерфейса в том, что он невидимый. В графическом интерфейсе мы видим элементы управления: есть ли они, как выглядят, современный ли дизайн, есть ли кнопки «Назад» и «Вперёд», на каком шаге мы сейчас находимся — промежуточном или конечном.

ГИ не позволяет этого увидеть. Мы пытаемся создать умственную модель системы и ответить на вопросы вроде: «Если сейчас я скажу “Назад”, то попаду в начало диалога или в предыдущее состояние? И что это за состояние?».

Умственная модель отвечает на вопрос о возможностях системы. Причём эта модель всегда неправильная. Если мы только что общались с голосовым меню «Нажмите один, чтобы что-то», ожидания будут занижены. Если мы недавно смотрели фильм «Она», ожидания будут завышены.

Чтобы ГИ хоть как-то работал, необходимо помогать пользователю создать и скорректировать умственную модель системы.

Система может задавать вопросы, предполагающие простые ответы:

— Вы хотите сохранить событие в календаре?

— Да (или нет).

А возможно, предполагающие развёрнутые ответы:

— Вы хотите сделать что-то ещё?

— Перенеси это событие на полчаса вперёд.

Из формата вопроса пользователь может сделать вывод, что в первом случае система довольно глупая. Он скажет «Нет, не сохранять» и последующие команды будет давать с такой же гранулярностью: «Новое событие. Когда хотите сделать? В 12:30. Что хотите сделать? Встретить родителей. Где? В аэропорту».

Во втором случае он может решить, что система «умная» и понимает развёрнутые ответы. Для корректировки введённой информации он скажет: «Вместо этого я хочу сделать новое событие на завтра, на 12:30, чтобы встретить родителей в аэропорту».

Чтобы сделать ГИ, который естественен для человека, нужно понять, почему наш разговор с другим человеком считается естественным. За счёт каких характеристик? Мы поняли, что не знаем этого.

Есть умные люди, с которыми приятно общаться и с которыми нет. Есть люди с достаточно зрелыми реакциями: они иначе реагируют на наши ошибки и вопросы. 50 лет назад не было такого понятия, как эмоциональный интеллект. Наверняка мы не знаем многих других характеристик, благодаря которым мы можем комфортно общаться с другими людьми.

Не зная этих характеристик, нельзя внести их в систему и сделать общение с системой естественным. Один из возможных выходов — система не обязательно должна быть готовой. Можно выпустить полуфабрикат, который будет получать обратную связь от людей и узнавать, что он сделал правильно и неправильно.

Несмотря на то, что мы не знаем, какими эти характеристики должны быть, в какой-то момент система сама их выяснит и будет поддерживать.

Один из самых популярных вопросов — характер личности голосового ассистента. Сейчас технологии позволяют только имитировать дружелюбность, интеллектуальность, чувство юмора и так далее. Особенность человека в том, что это очень многоплановые характеристики. Подходы компаний разнятся и зависят от цели создания голосовой системы и философии компании.

Алиса от «Яндекса». Автор скриншота: Кирилл Ященко

Siri — проект компании, которая создаёт магический пользовательский опыт. Всё должно просто работать. И если пользователь угадывает с грамматикой и словарём, всё замечательно. Но если не угадывает, система перестаёт работать без малейшего указания на то, что не так и как скорректировать поведение, чтобы в следующий раз она работала лучше.

При этом огромное внимание уделено персоналити. Программисты работали над качеством голоса и человечным взаимодействием: Siri может пошутить, добавить забавный комментарий при выполнении стандартной задачи. Иногда это выглядит естественно, но мы быстро достигаем uncanny valley («зловещей долины»).

Эффект такой: чем больше система похожа на человека, тем больше она ему нравится. Но когда она становится очень похожей, приязнь резко снижается и восстанавливается только для полной имитации. Этот спад и называется «зловещей долиной».

С персоналити мы быстро в неё сваливаемся: система удачно шутит, человек расслабляется, использует другой набор слов и грамматику, и система начинает реагировать не так, как он ожидает. Пользователь может посчитать, что система над ним смеётся или не одобряет. Это намного хуже, чем если бы он просто думал, что перед ним глупый робот.

Одно из основных отличий ассистента Google в том, что у него даже нет имени (OK, Google). У Siri (Apple) и Alexa (Amazon) есть имена, и они пытаются вести себя как человек.

В Google мы пришли к выводу, что безопаснее всего не имитировать персоналити и показать пользователю, что это просто технологии без какого-либо человеческого общения.

Интересные решения есть у Alexa: она может контактировать с устройствами, которые есть дома, например, с «умным» замком. Можно подойти к двери и сказать: «Алекса, открой дверь, код такой-то».

Есть куча нюансов. Когда мы используем голос, нас слышат все, кто находится поблизости — это небезопасно и иногда неуместно. Люди используют ГИ у себя в машине для создания события, но не делают этого в автобусе, так как окружающие услышат, где, когда и с кем они планируют быть.

Мы решили не использовать ГИ, когда важна безопасность. В этом случае требования к системе выше. Если мы ставим будильник, и он срабатывает в 99 случаях из 100, это нормально. Если закрываем машину или сейф, срабатывание в 99 случаях из 100 неприемлемо.

Появляется вопрос обратной связи. Если мы ставим будильник, достаточно ответа, что он поставлен. Мы не уточняем все записанные системой параметры. При повышенных требованиях к безопасности мы должны полностью доверять системе, что невозможно в текущем состоянии.

Либо должны получать обратную связь: включена сигнализация такого-то плана, будет работать до такого-то момента, выключить её может этот человек и так далее. Если система сообщает это голосом, кто-то другой может это услышать. А если система сообщает конфиденциальную информацию?

Поэтому в своей работе мы решили не связываться с ситуациями, когда важны безопасность и приватность.

Крупные компании будут пытаться имитировать возможность ассистента ответить на любой вопрос, и это всё ещё не будет работать.

Применение будет возможно в узких сферах, где ожидания пользователя ограничивают его словарь и динамику взаимодействия. Например, билетному аппарату можно сказать, что нужен билет от Москвы до Калуги на завтрашний вечер. Если человек затем спросит, сколько лет Бараку Обаме, совершенно нормально, когда система не ответит на такой вопрос.

Будущее за фокусом на определённом пользовательском кейсе, поддержке всей связанной с ним грамматики и игнорировании всего, что за его пределами.

Голос используется для подтверждения платежей, но это лишь часть всего взаимодействия. Нет примеров, когда весь процесс можно пройти голосом. Отчасти это связано с юридическими особенностями и возвратом платежей.

В Европе есть cooldown period, когда в течение определённого времени (в разных странах оно разное) покупатель может вернуть товар, даже если с ним всё в порядке. Человек может поменять своё мнение без причины, и это поддерживается законом.

Платёжной системе также необходима гарантия, что человек оплатил продукт, зная, что он покупает, и это не ошибка. Если это ошибочная покупка, при возврате платежа действует совсем другое правило. Были случаи, когда ребёнок брал телефон (Amazon Fire), что-то говорил и запускал процесс покупки. В этом случае невозможно доказать, кто её инициировал.

Принято считать, что новая технология просто заменит предыдущую, но это не всегда так. Сейчас говорят о голосификации приложений, когда для существующего приложения экран просто заменяется голосом. Очевидно, это так не работает. В основном потому, что голос используется в других условиях. Если человек может держать телефон и нажимать на экран, он, скорее всего, не будет использовать голос. Тачскрин чаще всего удобнее ГИ.

Голос удобен тогда, когда сложно использовать телефон: за рулём, в дороге с сумками или дома на диване, когда телефон лежит на столе и просто лень вставать, чтобы взять его в руки. Включить музыку голосом оказывается проще, даже если нажать на кнопку — быстрее.

ГИ необходим тогда, когда использование телефона обычным способом невозможно, например, в автомобиле. Но если компания говорит, что продукт можно использовать во время вождения, ей надо доказывать специальным органам, что все законодательные ограничения, связанные с вождением, приняты во внимание.

ГИ необходимо использовать, когда соблюдается два условия:

Человек занимается чем-то многозадачным и не может сконцентрировать внимание на одном устройстве.
То, что он делает с помощью ГИ, не является основной задачей.

Огромное преимущество визуальных интерфейсов в том, что варианты взаимодействия видны. С ГИ мы не знаем, что нам доступно.

Взаимодействие с экранами — очень хорошо проработанная тема. Экран останется даже тогда, когда ГИ будет работать хорошо, хотя бы потому, что у нас есть глаза. Визуальное восприятие — основное. Голосовое — вспомогательное.

Голос может взаимодействовать с экранным представлением данных и при этом не быть подчинённой структурой. Например, в Alexa основной компонент — голос. Можно поставить приложение, чтобы видеть ответы системы на экране (некоторые ответы сложно воспринимать на слух). Правда, сейчас концепция меняется — следующая версия Amazon Echo будет со своим экраном.

Хирург — хороший пример многозадачности. Он фокусируется на одном виде деятельности, но ему может требоваться дополнительная информация. Здесь ГИ применяется уже сейчас.

IBM с проектом Watson пошла по другому пути. Компания начала работать над искусственным интеллектом. Сначала он выиграл у людей в викторину, а четыре года назад его внедрили в нескольких американских клиниках. Сейчас его используют для диагностики рака в 1000 клиниках. Система используются для критических процессов, но в очень узких юзкейсах. При этом персонал проходит специальную подготовку.

Amazon запустил продукт, который кардинально отличался: нет экрана, это физический объект, качество голоса намного выше (за счёт встроенного хранилища данных с предзаписанными сэмплами).

Интересное диалоговое взаимодействие Google. Если мы говорим, что хотим добавить что-то в календарь, запустится система диалогов, достаточно гибкая и довольно очевидная. Она уточняет информацию о мероприятии, вы можете корректировать данные и так далее.

Microsoft хорошо решила вопрос настройки в Cortana. Ожидается, что человеку не надо ничего знать о системе и настраивать. Когда я говорю это, то обычно имею в виду следующее: вот эти слова я использую не так, как остальные люди, и так далее. По идее это должно работать автоматически, но не работает, а значит, должна быть система настройки.

Apple полностью игнорирует вопрос настроек. Для Cortana можно указать свои интересы и так далее, и при этом интерфейс достаточно простой.

Конспект подготовил проектировщик интерфейсов Антон Григорьев.

#дизайна

Преимущества и недостатки голосовых интерфейсов

Что это

1. Естественный язык

2. Диалог

3. Неограниченный словарный запас и грамматика

Типы

Текущее состояние

Проектирование

Доверие

Невидимый интерфейс

Корректировка умственной модели

Человечность

Персоналити

Ответы на вопросы

Безопасность

Ближайшее будущее

Использование в платежах

Когда необходим

Связь с визуальным интерфейсом

Применение в критических процессах

Примеры удачных решений