"Привет, Сири!" Как оценить качество работы голосовых помощников?

"Привет, Сири!" Как оценить качество работы голосовых помощников?

Никита Блинков, Senior Product Manager, ex-Маруся VK, рассказывает про то, как оценивается эффективность голосовых помощников.

Кому будет интересно:

  • Всем, кто работает над созданием и улучшением голосовых ассистентов
  • Продукт-менеджерам, которые занимаются цифровыми продуктами
  • Всем, кто интересуется технологиями, ИИ и смарт-устройствами

UnionVK

Материал подготовлен на основе онлайн-встречи UnionVK, сообщества текущих и бывших сотрудников группы компаний VK. Присоединяйся к комьюнити, если тоже являешься выпускником группы VK :)
А полную запись встречи можно посмотреть по ссылке на нашем YouTube канале.

Оглавление

За последнее время рынок голосовых ассистентов активно развивался и подарил удивительные продукты: Amazon Echo Show 2 и 3 поколений, Apple HomePod mini, Google Nest Mini и др. Рынок СНГ примечателен в этом контексте, так как насыщен умными колонками. Однако, чтобы создать крутого голосового ассистента, важно оценивать прогресс. Даже у крупных тех.компаний ресурсы ограничены, поэтому при создании и продвижении умных колонок важно использовать правильные метрики, чтобы определить, в каком направлении работать.

Далее поделюсь мыслями по поводу метрик для умных колонок и об их “умности”. Эта метрика — одна из самых интересных, поскольку, хоть колонки и называются “умными”, трудно определить, что означает “умность”.

<i>Источник: автор</i>
Источник: автор

Удержание пользователя (Retention)

Удержание пользователей важно для любого цифрового продукта, но на рынке умных колонок это сложно, особенно для физического устройства, а не приложения. Люди могут приобрести колонку и не использовать постоянно. Если пользователь отложил колонку в сторону, мало что можно сделать, чтобы изменить это. Поэтому успех продуктовой стратегии оценивается другими показателями, которые зависят от типа умной колонки.

Офф-топ — типы умных колонок

Есть два типа умных колонок: ориентированные на разговор, и те, которые выполняют задачи. Siri — голосовой помощник, который выполняет задачи: говорит прогноз погоды или включает музыку, но плохо поддерживает разговор. Replika поддерживает продолжительное и персонализированное общение. Есть помощники, которые и общаются, и выполняют задачи: Алиса Яндекса или Маруся VK. Независимо от типа, у колонок одинаковый набор метрик для оценки, хотя приоритеты этих метрик отличаются.

Качество ответа

Показатель, над которым я работал последние несколько лет, — качество ответа или умность*. Умные колонки унаследовали этот показатель от поисковых систем, так как по сути колонки — говорящие поисковики. Для расчета берется количество запросов пользователей и количество релевантных ответов. Если умная колонка дает 90 релевантных ответов на 100 запросов, то качество ответа будет составлять 90%. Преимущество метрики в легкости оценки — вы просто анализируете ответы за определенный период. Однако эта оценка субъективная и затратная.

Люди, которые оценивают ответы, понимают релевантность по-своему. Оценщики работают со сложными данными в большом объеме, что иногда приводит до 10-15% ошибок в анализе. В результате, технологические компании инвестируют в улучшение качества оценки и интерфейсов. Разработчики умных колонок уже внедряют алгоритмы машинного обучения для решения проблемы, однако процесс оценки качества ответов остается затратным. Вероятно, все еще важный показатель качества ответов будет пересмотрен в будущем**.

Длина диалога

Этот показатель актуален для умных колонок, ориентированных на общение. Клиент захочет купить голосового помощника, который поддерживает длительные и содержательные разговоры — этим человек отличается от робота. Если разговоры между клиентами и колонкой становятся дольше, это успех. Здесь используются те же приемы, что и в разговорах между людьми. Например, мы тестировали механику разговора, в которой голосовой ассистент не только отвечал на вопросы, но и сам задавал, что увеличило продолжительность диалога.

Количество сессий

Я часто сравниваю умные колонки с баттлом “кнопочные телефоны vs смартфоны”: телефон с кнопками используют пару раз в день, чтобы позвонить, отправить сообщение или поиграть в “Змейку”, потому что нет других функций. Смартфон решает гораздо больше задач, поэтому используется тысячи раз в день. Думаю, умные колонки тоже пойдут по этому пути — чем они умнее, тем чаще с ними взаимодействуют. Если пользователь знает, что колонка может помочь с “jobs to be done”, то будет использовать ее чаще.

Новые привычки пользователей

<i>Цикл формирования привычки. Источник: автор.</i>
Цикл формирования привычки. Источник: автор.

Управление продуктом обычно связано с формированием и укреплением привычек: мы разрабатываем новые функции, чтобы переводить людей из одной категории (с низкой активностью) в другую (со средней активностью) и так далее. Умные колонки — область, где продукт-менеджеры могут проявить мастерство: они подбирают правильные функции, которые превратятся в привычки пользователей. (В курсе Reforge — больше о дизайне привычек. Хотя курс больше посвящен удержанию пользователей существующих цифровых продуктов, вопросы вовлечения актуальны и для умных колонок).

Проведенное время

Умные колонки — это также доступ к контенту: музыка, аудиокниги, фильмы, игры с голосовым управлением или даже мультимодальные игры. Монетизация колонки напрямую связана с тем, сколько времени пользователь тратит на взаимодействие с контентом. Это влияет на впечатление от продукта и учитывается при расчете стоимости подписки.

Дополнительные метрики, о которых стоит подумать

Важной чертой голосовых помощников является проактивность — способность не только отвечать на вопросы, но и предлагать релевантные идеи. Я уже создал пару MVP: например, мы добавили в умную колонку функцию задавать пользователю вопросы и предлагать углубиться в тему разговора (допустим, об Илоне Маске). Alexa, например, предлагает добавить вещи в список покупок. В будущем проактивность может выражаться в своевременных предложениях, основанных на интересах пользователя и истории взаимодействия. Для измерения проактивности можно сравнить долю принятых предложений с количеством случаев их отклонения. Рано говорить об оптимальном значении метрики, но индустрия может развиваться в этом направлении.

<i>Пример проактивности. Источник: автор.</i>
Пример проактивности. Источник: автор.

Чтобы оценить общее качество отклика, мы можем измерить качество отклика по отдельным функциям. Например, взять данные о прогнозе погоды, который часто запрашивают пользователи, и улучшить качество ответа на этот конкретный запрос. Тогда общее качество ответов повысится пропорционально доле запросов о погоде среди всех запросов пользователей. То же самое можно сделать с поиском музыки и другими функциями.

Однако не все релевантные ответы хорошие. Если умная колонка говорит пользователю, что погода пасмурная, в локации пользователя может все еще идти дождь. Чтобы создать по-настоящему умного помощника, мы должны контролировать не только ответ, но и предоставляемые данные, например, местоположение и прочие условия.

Для этого оцениваются сегменты данных по ключевым функциям: качество поиска музыки, функциональность умного дома и так далее. Также используются конкретные показатели для разных подсистем умных колонок:

  • Скорость пролистывания музыки (как быстро пользователь “скипает” подобранную песню);
  • Разнообразие ответов;
  • % дослушивания аудио-контента;
  • Длина ответов (если у двух ответов одинаковое качество, лучше выбрать более короткий, как в общении между людьми);
  • Параллельное сравнение для различия хороших и отличных ответов;
  • Клики для умных колонок с экраном.

Индекс потребительской лояльности (NPS)

Net Promoter Score (NPS) измеряется для умных колонок, как и для других продуктов. Однако этот показатель иногда нестабилен: высокий NPS не гарантирует высокий ретеншн пользователей, и оценка NPS может не меняться долгое время.

Несмотря на это, NPS тесно связан с качеством ответов. Высокий NPS сопровождается эффективностью выполнения задач и правильными ответами умной колонки.

Интересно, что NPS — это отличный инструмент для понимания продукта и улучшения качества откликов, если анализировать отзывы пользователей. В опросах после оценки NPS пользователи часто делятся большим количеством информации, которую можно анализировать по ключевым словам. Это позволяет изучить, как качественные данные связаны с количественными. В результате такого анализа мы получаем качественную информацию, которую можно превратить в количественную, анализируя похожие запросы в логах.

Достижение цели за сессию

Даже когда пользователь получает релевантный ответ на вопрос, не всегда понятно, достигнута ли его цель. Можно проанализировать весь диалог между пользователем и колонкой и посмотреть, какой перцентиль целей достигнут в рамках сессии. Улучшение этой метрики поможет понять, доволен ли пользователь или нет, задает ли дополнительные вопросы для достижения цели и сколько запросов для этого потребовалось. Слишком много итераций типа «У меня есть это и то, что выберешь?» обычно раздражает пользователя. Хотя достижение цели похоже на показатель качества ответа, методология расчета отличается. Качество ответа — это среднее значение всех запросов пользователя за один сеанс. Но пользователь может обращаться к голосовому помощнику несколько раз в день, и количество запросов в каждой сессии может отличаться.

Заключение

Показатели, относящиеся к голосовому продукту, зависят от типа умной колонки и стадии разработки. Метрики будут разными для Alexa и Spotify’s Car Thing. На начальном этапе следует инвестировать в качество ответов, но как только продукт появится на рынке, показатели будут зависеть продуктовой стратегии.

*Дело не в том, что качество ответа — единственное, что подчеркивает умность, но на современном этапе развития голосовых технологий эта метрика работает — можно ее отслеживать и улучшать с видимыми результатами

**Это может быть качество ответа только для набора оценок, полученного от новых пользователей, что кажется более информативным

Начать дискуссию