Советы по адаптации голосовых интерфейсов для поисковых запросов

Основатель студии дизайна Big Medium Джош Кларк — об излишней самоуверенности поисковых систем и голосовых помощников.

Джош Кларк
Джош Кларк

Журналистка Адриана Джеффрис уверена, что хуже поддельных новостей могут быть только блоки с ответами от Google, и в чём-то она права.

Сниппеты на первой странице выдачи Google появляются в 15% случаев, позиционируются как готовые ответы на введённые запросы и выступают попыткой как можно быстрее показать то, что аналитик Дэнни Салливан называет «единственно верным ответом». «К сожалению, не все из этих ответов действительно верны», — пишет Джеффрис. Посмотрите хотя бы на эту карточку:

Google приписывает Обаме слишком широкую трактовку правил <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2F%25D0%2590%25D0%25BB%25D0%25B8%25D0%25BD%25D1%2581%25D0%25BA%25D0%25B8%25D0%25B9%2C_%25D0%25A1%25D0%25B0%25D1%2583%25D0%25BB&postId=26293" rel="nofollow noopener" target="_blank">Алинского</a> и далеко идущие планы по введению в США военного положения.
Google приписывает Обаме слишком широкую трактовку правил Алинского и далеко идущие планы по введению в США военного положения.

Ситуация усугубляется, когда речь заходит о голосовых интерфейсах, таких как Echo или Google Home, ведь они предлагают нам всего один ответ, создавая впечатление, что он — единственный.

Я вижу здесь две проблемы: информации и презентации. В этой статье я коснусь презентационной части, поскольку именно дизайнеры интерфейсов данных могут помочь пользователям распознать ложную информацию, избежать которой вряд ли удастся. Но сначала я хочу прояснить, почему это так меня беспокоит.

Дурацкие ответы

И Джеффрис, и Салливан приводят примеры наиболее дурацких ответов, представленных Google в качестве единственно верных: «Президенты заодно с мафией», «Динозавры жили несколько тысяч лет назад», «Обама — король Америки» и так далее. А вот какой ответ появился в блоке Google на запрос «Порочны ли женщины?»:

В каждой женщине есть что-то от проститутки. В каждой женщине присутствует частица дьявола... Женщины не любят мужчин, они любят то, что мужчины могут им дать. Это достаточная причина, чтобы утверждать, что женщины испытывают влечение к мужчинам, но не могут любить их.

Самые ужасные ответы получаются, когда поисковые алгоритмы сталкиваются с неоднозначными запросами. В остальных случаях это просто ошибка ранжирования: Google находит страницу с релевантной информацией, но выбирает из неё неправильный отрывок.

Редактор Gizmodo Том Скокка пишет о том, что произошло, когда он задал безобидный вопрос: «Сколько времени займёт карамелизация лука?»: «Самый выдающийся информатор в мире — Google — рассказывает своим пользователям, что карамелизация лука займёт около пяти минут. Он вытащил этот ответ из статьи, смысл которой заключается совершенно в обратном. Приведённая мной цитата из Times показывает, как возникает ложь, которую алгоритм выдаёт за авторитетное мнение по существу вопроса».

Возможно, нечто похожее послужило причиной абсолютно бессмысленного ответа, который блогер Джон Грубер получил от помощника Alexa, спросив, как сделать мартини: «Мартини — это коктейль, составленный из одной части джина и шести частей вермута». Те, кто любят мартини, знают, что, следуя этому рецепту, вы получите невероятно мерзкое пойло.

Стандартный рецепт Международной ассоциации барменов предписывает смешивать шесть частей джина и одну часть вермута. В этом случае, Alexa вместо того, чтобы давать неверный ответ, должна была сказать: «Я не знаю, посмотри в "Википедии"».

Неверные ответы и необоснованное доверие

Следует отметить, что среди миллиардов запросов, которые ежедневно получают поисковики, такие примеры встречаются очень редко. Google, Siri, Alexa и подобные им сервисы потрясающе умны. Тот факт, что они могут распознавать произвольные запросы и находить полезную информацию в бескрайних глубинах интернета, — уже настоящее чудо. Их точность поразительна. Поэтому я могу простить им некоторые ошибки.

Гораздо труднее извинить ту уверенность, с которой они представляют неверный ответ, создавая впечатление, что он наиболее полный и исчерпывающий. Это уже проблема дизайна. И именно с этой проблемой будут сталкиваться новые сервисы, поскольку при создании интерфейсов мы всё больше используем машинное обучение и искусственный интеллект.

Существует также проблема, выходящая далеко за рамки плохих коктейлей и недожаренного лука. Это проблема, связанная с политической пропагандой, где полным ходом идёт ожесточённая информационная война. Там результаты поисковой выдачи становятся весьма эффективным оружием: проведённое в 2014 году исследование индийских учёных показало, что порядок и содержание результатов поисковой выдачи могут сдвинуть электоральные предпочтения неопределившихся граждан на 20%.

Более того, уверенное представление ложной информации может провоцировать ненависть и даже стоить кому-то жизни. Журналистка The Guardian Кэрол Кэдволладр описывает собственный шок, когда она увидела ответ Google на вопрос «Порочны ли евреи?»: «Я не задавала этот вопрос. Я вообще о нём не думала. Он уже был в поисковике, я просто нажала Enter и получила ответ Google: "Евреи порочны по своей сути". На моём экране были все доказательства этого: целая страница результатов, и девять из десяти подтверждали этот ответ».

Дилан Руф, признанный виновным в массовом убийстве, однажды наткнулся на похожий набор результатов поиска, когда искал «преступления чёрных по отношению к белым». Момент, когда он обнаружил несколько страниц нацистской пропаганды, Руф называл переломным — тем, который привёл его к убийству девяти человек в церкви Чарльстона. «С этого дня я уже не был прежним», — говорил он об этом опыте.

Что мы можем сделать

Многие склонны доверять ответам, выданным поисковыми сервисами. В этом частично виновата сама презентация ответа, выражающая ничем не подтверждённую уверенность и несуществующий авторитет. Этакие «единственно верные ответы» от излишне самоуверенных машин.

Как нам сделать интерфейсы более скромными? Как создавать системы, которые будут достаточно умными, чтобы сомневаться в своей компетентности?

Я не уверен, что могу ответить на эти вопросы, но я могу задать ещё несколько полезных вопросов. Я задаю их себе, когда работаю с интерфейсами для ботов и рекомендательных систем.

  • Когда нам следует пожертвовать скоростью ради точности?
  • Как можно обозначить неопределённость или двусмысленность?
  • Как можно определить зоны враждебной информации?
  • Как можно обеспечить контекст ответа?
  • Как можно адаптироваться к речевым и другим интерфейсам с низким разрешением?​

Когда стоит пожертвовать скоростью ради точности

Наши сервисы наперебой стараются находить самые быстрые и самые подходящие ответы. Поначалу Google выдавал список страниц, которые с наибольшей вероятностью содержали запрашиваемую вами информацию.

Хотите узнать погоду в Нью-Йорке? Вот ссылки на страницы, которые расскажут об этом. Затем Google начал сам отвечать на вопросы: «Не нужно переходить на другие страницы, мы покажем прогноз прямо над результатами поиска».

Сейчас Google выдаёт ответы на некоторые запросы прямо в поисковой строке:

Советы по адаптации голосовых интерфейсов для поисковых запросов

Я часто повторяю, что работа дизайнеров состоит в том, чтобы сокращать время между намерением и действием. Наша задача — подвести желаемое действие максимально близко к тому моменту, когда пользователь поймёт, чего он хочет. Google выдаёт действие (ответ) даже раньше, чем вы формулируете своё намерение (вопрос). Поисковик предсказывает ваши запросы уже после нескольких набранных символов.

Во многих интерфейсах скорость считается конкурентным преимуществом, а потраченное сверх необходимости время — едва ли не врагом. Для нашей отрасли характерно излишнее преклонение перед скоростью загрузки и интерпретации данных, хотя эти метрики отнюдь не исчерпывают базовую потребность пользователя «как можно быстрее получить результат».

Но, хотя этот подход работает для простых запросов вроде прогнозов погоды и поиска дат или адресов, он становится опасным для более амбициозных тем — особенно, когда эти темы неоднозначны. «Производительность — это не скорость загрузки страницы, — говорит дизайн-директор Land Rover Джерри Макговерн, — Это скорость ответа». Ответ должен быть прежде всего верным.

Начните набирать в поисковике «did Trump» («Причастен ли Трамп») — и Google тут же выдаст: «Причастен ли Трамп к государственной измене?»
Начните набирать в поисковике «did Trump» («Причастен ли Трамп») — и Google тут же выдаст: «Причастен ли Трамп к государственной измене?»

Разумное стремление к скорости должно сдерживаться более значимой потребностью в достоверности и точности фактов. Всегда есть некий предел, где уверенность в ответе уступает место риску ошибиться. Это тот момент, когда сервис больше не должен предоставлять «единственно верный ответ». И дизайнеры должны быть очень честными и бдительными, когда он наступает.

Я считаю, что Google и другие «умные» сервисы нуждаются в настройке. Пока они слишком часто жертвуют точностью ради скорости и поэтому выдают уверенные, но неверные или противоречивые ответы.

В каждом сервисе этот переломный момент так или иначе запрограммирован. В Google его можно определить по отсутствию блока с ответом в самом верху страницы выдачи. Если поисковик не находит ответа, в котором он полностью уверен, в 85% случаев он возвращается к старому «олдскульному» списку результатов поиска. По словам Джона Грубера, это как раз тот случай, когда «лучше сказать "я не знаю", чем дать неправильный ответ».

Устраивает ли нас такая альтернатива? Возможно, вместо выбора из двух вариантов («Я знаю ответ» и «Я не знаю ответа») мы бы предпочли «Мне кажется, я знаю»? Но это уже следующий шаг в разработке подобных сервисов.

Как можно выразить неопределённость или двусмысленность

Один из моих любимых Twitter-аккаунтов — это @picdescbot, бот, который подписывает произвольные изображения, прогоняя их через API компьютерного зрения Microsoft. Как правило, он попадает в яблочко, но время от времени делает до смешного наивные ошибки.

Динозавр на доске для серфинга
Динозавр на доске для серфинга
Группа людей, стоящих перед зданием
Группа людей, стоящих перед зданием
Мужчина, летящий по воздуху на скейтборде ночью
Мужчина, летящий по воздуху на скейтборде ночью

А иногда он и вовсе промахивается:

Срез дерева
Срез дерева

Во всех этих случаях сервис представляет описание так уверенно, как будто констатирует всем известный факт. Он часто ошибается, но большая часть его очарования кроется именно в этих уверенных заявлениях. В конце концов, это всего лишь игрушка.

Что если бы мы захотели сделать его полезным? Например, он мог бы помогать слабовидящим людям понимать, что изображено на картинке. Интересно, что «за кулисами» этот алгоритм демонстрирует более тонкое восприятие распознаваемых изображений. Например, он на 97% уверен в том, что картинка похожа на динозавра, но только на 26% — в том, что динозавр стоит на доске для серфинга.

API компьютерного зрения Microsoft показывает степень своей уверенности в анализе изображения
API компьютерного зрения Microsoft показывает степень своей уверенности в анализе изображения

Признание двусмысленности и неопределённости ответов должно быть важной частью разработки поисковых систем. Здесь могут пригодиться обычные классификаторы. Вместо «динозавр на доске для серфинга» можно было бы выдать фразу «динозавр (возможно, на доске для серфинга?)». Мы можем добавить к рисунку надпись, показывающую общую уверенность в результате, а дополнительный визуальный индикатор нам в этом поможет:

Советы по адаптации голосовых интерфейсов для поисковых запросов

Более того, это можно сделать для отдельных слов или комментариев в описании рисунка:

Советы по адаптации голосовых интерфейсов для поисковых запросов

Подобный набор быстрых намёков можно использовать и в блоках с ответами Google.

Впрочем, для более сложных тем нам бы хотелось знать несколько больше, чем то, насколько «правдив» полученный результат. Было бы неплохо отслеживать сразу три показателя: степень полноты, релевантности и противоречивости фактов в сниппете (а также достоверность самого источника — к этому я вернусь чуть позже.) Все эти вопросы нуждаются в проработке, и я не уверен, что подобрал правильные термины, но концептуально мне представляется что-нибудь вроде:

На шкале под блоком ответа на вопрос «Причастен ли Трамп к государственной измене?» обозначены: точность 72%, однозначность (непротиворечивость) 9%, релевантность 97%.
На шкале под блоком ответа на вопрос «Причастен ли Трамп к государственной измене?» обозначены: точность 72%, однозначность (непротиворечивость) 9%, релевантность 97%.

Релевантность и точность определения — это те метрики, с которыми мы уже знакомы. Понятие противоречивости (спорности) ответа более сложное. Его следует применять в тех случаях, когда речь идёт об информации, которая постоянно дополняется новыми фактами. И это особенно трудно для тех тем, которые могут стать объектом манипуляций.

Мне кажется, что сам термин «спорность» недостаточно силён для этих случаев. Высказывание о том, что женщины или евреи порочны, не является спорным — оно насквозь пропитано враждебностью. Заявление о том, что Барак Обама не является американским гражданином, — это циничная ложь. Существует целый ряд тем, которые то и дело становятся зоной вражды и которые слишком сложны для того, чтобы алгоритмы могли выносить надёжные суждения.

Что делать с зонами информационной вражды

Мы живём в эпоху «горячих» тем и ожесточённых споров, в которых два исполненных благими намерениями человека могут опираться на диаметрально противоположные наборы «фактов».

Более того, существуют люди, которые намеренно распространяют ложную информацию, чтобы создать противоречия и ненависть там, где их не должно быть. Ответы на такие вопросы, как «Порочны ли женщины?» или «Порочны ли евреи?» показывают, что алгоритмы не справляются с задачами сортировки, когда источники информации ненадёжны.

Если информация заражена вирусами ненависти и вражды, наши поисковые системы и голосовые помощники должны предупреждать нас об этом. Или, по крайней мере, сообщать, что их ответы являются спорными, что система не может определить, где находится истина.

Когда алгоритм терпит неудачу, его следует дополнить человеческим суждением. Краудсорсинговая модель редактуры «Википедии» отлично справляется с отслеживанием спорных тем и статей. Эта система очень открыто говорит о своих потенциальных проблемах. Вы можете просмотреть все 6000 спорных и противоречивых страниц «Википедии»: это те статьи, которые не согласуются с политикой нейтралитета интернет-энциклопедии.

«Википедия» добавляет предупреждения к тем статьям, объективность и точность которых вызывают сомнения.
«Википедия» добавляет предупреждения к тем статьям, объективность и точность которых вызывают сомнения.

Возможно, такие сигналы о противоречивости информации смогут подавать сами поисковые системы, а может быть, нам лучше опереться на человеческую оценку. Но кто бы это ни делал — люди или роботы, существуют темы, требующие «ручного управления». В этих случаях необходимо предупредить читателя о том, чтобы он «включил внутреннего скептика и критическое мышление». Это особенно важно, когда мы имеем дело с ложными, противоречивыми, неполными данными, либо когда эти данные имеют отношение к пропаганде. Всё это — зоны враждебной информации.

Поэтому, когда наши инструменты не могут вникнуть в смысл найденной информации, они должны сообщать, что мы не можем полагаться на их ответы, или, по крайней мере, обеспечить нам доступ к контексту. Пусть это будет всего лишь предупреждающий флажок и возможность перейти к исходному материалу для его более квалифицированной интерпретации. Было бы здорово, если бы результаты поиска выдавали что-то вроде:

Внимание: Эта тема очень востребована на пропагандистских сайтах, которые могут отображаться в результаты поиска. Отнеситесь к ним критически, проверьте полученную информацию с помощью надёжных источников, включая: [набор ресурсов, достойных доверия].​

Как обеспечить контекст ответа

Блоки-сниппеты Google обычно содержат контекст, лежащий на самой поверхности. Этот контекст всегда имеет определённый источник, то есть ссылку на страницу, откуда был взят ответ. Однако у читателя нет никакого представления о том, что представляет собой этот источник. Может быть, это сайт вроде «Википедии», новостной сайт или сайт партизанской пропаганды? Вы этого не узнаете, пока не посетите указанную страницу и не оцените её надёжность самостоятельно.

Как правило, по таким ссылкам никто не переходит. Руководитель About.com Нейл Вогель считает, что «никому не интересно попадать в сниппеты Google. Люди не кликают на эти "топовые" результаты, они прекращают поиск сразу же, как получают ответ». About.com отмечает резкое снижение трафика из поисковика в те дни, когда их контент попадает в сниппет-боксы Google.

В том, что люди не переходят к источнику быстрых ответов Google, виноват дизайн. Google изначально и недвусмысленно старался оградить вас от лишних переходов. Сама идея блоков с ответами состояла в том, чтобы вырывать предполагаемый ответ из контекста. Зачем быть посредником, если вы можете предоставить ответ напрямую?

Платой этого стало то, что люди потеряли контекст, окружающий этот быстрый ответ, а без контекста они даже интуитивно не могут оценить надёжность источника. И хотя от этой возможности их отделяет всего один клик, срабатывает известная пословица: с глаз долой — из сердца вон. Да и та уверенность, с которой предлагается данный результат, не располагает к тщательной проверке фактов.

В этой ситуации было бы полезным краткое описание ресурса. Например, журналисты очень виртуозно характеризуют свои источники: «либеральный мозговой центр в Калифорнии», «организация, лоббирующая фармацевтическую промышленность», «учёный, в течение 20 лет изучающий эту болезнь», «обеспокоенный родитель».

Поскольку характер любого суждения напрямую зависит от особенностей его источника, нам следует описать эти особенности. Может быть, стоит найти способ классификации таких источников информации? Или собирать их оценки для того, чтобы можно было измерить степень доверия к ним? Так, мы доверяем ресторану, который 300 посетителей оценили на четыре звезды, больше, чем ресторану, который имеет пять звёзд, но по мнению лишь одного посетителя.

Даже алгоритмы Google работают по принципу изощрённого сочетания таких оценок: одной из его инноваций стал PageRank, измеряющий авторитетность с помощью подсчёта входящих ссылок, которые получила страница.

Конечно, при желании можно подделать отзывы или обойти PageRank. Защититься от этого поможет сообщество надёжных рецензентов. Например, Metacritic объединяет профессиональных кинокритиков, чтобы вывести рейтинги новых фильмов. Можно применить ту же стратегию, чтобы отслеживать и ранжировать источники данных.

Советы по адаптации голосовых интерфейсов для поисковых запросов

Не менее важно уметь объяснять, почему тот или иной ответ попадает в топ выдачи. Кэрол Кэдволладр пишет: «Я не могу понять, почему 9 из 10 результатов поисковой выдачи назвали евреев порочными. Вряд ли мы когда-нибудь сможем это узнать. Ни Google, ни Facebook не могут раскрыть свои алгоритмы».

Это неправильно. Даже самые сложные сервисы порой намекают на то, каким образом данные попадают на первые позиции выдачи. Мы можем видеть эти советы на рекомендательных сайтах вроде Netflix («Мы знаем, что вам нравятся странные вещи», «Телевизионная драма с сильной героиней») или Amazon («Купите это ещё раз», «Согласно истории ваших запросов», «Люди, купившие это, также приобрели это»). Даже такие приблизительные подсказки помогают понять логику ранжирования результатов.

Как адаптировать голосовые интерфейсы

Проблема «единственно верного ответа» становится особенно острой, когда мы говорим о голосовых сервисах, таких как Alexa и Google Home. Голос считается интерфейсом с супернизким разрешением. Вы никогда не упакуете в беседу столько же информации, сколько на бумажную или веб-страницу. Обмен данными через голосовой интерфейс занимает гораздо больше времени, чем любым другим способом.

Обычно Alexa и Google Home ограничиваются верхним результатом выдачи. Таким образом, ответ Google Home сводится к озвучиванию ответа, приведённого в сниппете.

«Традиционный список результатов поиска плохо транслируется в голос, — пишет Дэнни Салливан. — Только представьте, что вы хотите узнать, сколько калорий содержится в апельсине, а Google Home зачитывает вам список из 10 сайтов». Обычные сервисы легко справляются с подобными запросами.

Но что если на вопрос не существует однозначного ответа? Слово 'set' имеет почти 500 определений в Оксфордском словаре. Попросите Alexa определить это слово, и она будет думать дольше минуты. «Слово set имеет много разных значений», — скажет Alexa и перечислит 15 определений (по пять для прилагательных, существительных и глаголов). Этот быстрый ответ слишком подробен (глубину его трудно оценить) и в то же время недостаточно точен (сервис выдал всего 3% существующих определений).

Хорошо, что Alexa с самого начала предупреждает о существовании более чем одного ответа:«Слово set имеет множество значений». Это снимает с неё ответственность, так как ответ слишком сложен для голосового помощника.

Как можно эффективно выразить эту сложность? Обычно люди обсуждают сложные вещи, беседуя между собой. Я задаю вопрос, и вы отвечаете на него. Я задаю уточняющий вопрос, стараясь повернуть беседу в нужное русло, а вы предоставляете мне более подробную информацию. И так далее. Чтобы улучшить наши голосовые интерфейсы, нужно научить их поддерживать диалог.

​Я: Что означает слово set?

Alexa: Set имеет 464 определения. Вы хотите определить существительное, прилагательное или глагол?

Я: Существительное.

Alexa: Существительное set означает [три определения]. Хотите услышать больше значений?

Я: Мне нужен пример предложения с первым значением этого слова.

Alexa: Пожалуйста. «Он купил запасной комплект одежды».

Сейчас наши голосовые интерфейсы работают скорее в режиме «вопрос-ответ», чем в режиме диалога. Задаёшь вопрос, получаешь ответ и немедленно забываешь, о чём ты спрашивал. Продолжение отсутствует, каждый новый вопрос воспринимается так, как будто до этого вы ни о чём не спрашивали.

Google Assistant только-только начинает поддерживать беседу, сохраняя её «состояния» и обеспечивая возможность задавать логически связанные вопросы. И если нам удастся превратить голосовой интерфейс в интерфейс, поддерживающий беседу, за нами подтянутся и другие сервисы. Тогда мы сможем получать информацию, выходящую за рамки первого ответа в выдаче.

Уже сейчас Alexa могла бы информировать вас о спорном или неоднозначном контенте, точно так же, как она предупреждает о существовании множества значений слова: «По этому вопросу существуют противоречивые мнения…». Тем не менее, даже когда появится интерфейс, умеющий поддерживать беседу, большинство из нас едва ли смогут вести неспешный сократовский диалог о нюансах слова set.

Второй подход — и единственный, который мы можем применить прямо сейчас, — это пропускать сложные ответы через интерфейс с высоким разрешением: «Слово set имеет 464 значения. Я пришлю вам ссылку на их полный список» или «На ваш вопрос нет однозначного ответа. Я отправила вам список ссылок для исследования этой темы». Нужно научить наших голосовых помощников переключать нас на другие интерфейсы, более подходящие для требующихся нам данных.

Да здравствует критическое мышление

Вопросы, которые я задаю, помогают показать пользователям, насколько они могут доверять выданным ответам. Это предполагает веру в то, что человек, получающий сомнительную информацию, сможет включить критическое мышление. Мне хочется быть оптимистом: я надеюсь, что с помощью наших подсказок люди смогут как следует обдумать выданные ответы.

Хотя на самом деле всё не так хорошо. Согласно одному исследованию, всего 19% преподавателей в колледжах могут ясно объяснить, что такое критическое мышление — и лишь единицы могут научить ему студентов.

Когда речь идёт о фактах, влияющих на наши личные и гражданские решения, мы полагаемся на поисковые и новостные сервисы, часто не имея нужных навыков оценки полученной информации. И чем больше растёт авторитет Google и других «умных помощников», тем больше их несовершенное понимание мира принимается за действительное положение вещей.

Дизайнеры подобных систем управления данными должны добиться, чтобы ответы на сложные вопросы давались с определённым порогом доверия, а также научить людей работать с неоднозначной или заведомо ложной информацией. Сегодня недостаточно создавать системы, которые настолько умны, чтобы понимать, где им не хватает ума. Нам нужны системы, которые оповестят нас, когда придёт пора подключать человеческий разум.

33
2 комментария

Огонь! Да здравствует критическое мышление!

Ответить

Привет)))

Ответить