Дизайнеры голосовых интерфейсов. Кто это? Чем они занимаются? И как стать одним из них?

Voice Assistant <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2F%40benceboros%3Futm_source%3Dunsplash%26amp%3Butm_medium%3Dreferral%26amp%3Butm_content%3DcreditCopyText&postId=75055" rel="nofollow noreferrer noopener" target="_blank">BENCE BOROS</a>

В мире появляется все больше голосовых интерфейсов. Все знают Siri от Apple, Алису от «Яндекса», Alexa от Amazon. Но существует еще огромное множество нишевых чат-ботов, а также ботов для бизнеса. Все они коммуницируют с миллионами пользователей каждый день. И разработчики, и пользователи хотят сделать эти коммуникации удобнее и эффективнее, поэтому стали появляться люди, которые специально этим и занимаются.

Мы в «Робот Вера» уже провели более 4 млн интервью с кандидатами на различные вакансии и все это время старались анализировать пользовательский опыт и делать продукт лучше. Но у нас не было отдельного человека для этой цели. Этим занимались частично продакт, частично сами разработчики. Полгода назад я переехал в Сан-Франциско и, изучив местный рынок, обратил внимание, что для такого рода задач здесь уже сформировалась полноценная профессия Conversation Designer или Voice User Interface Designer. О ней я и хочу кратко рассказать.

Основная задача Conversation Designer — это проектирование пользовательских диалогов. Метриками успешности здесь является глубина разговора, количество реплик, удовлетворенность пользователя. В некоторых сценариях голосовые интерфейсы (VUI) эффективнее графических (GUI). И задача дизайнера подобные сценарии найти и реализовать их так, чтобы пользователь на них перешел. Таких кейсов уже сейчас довольно много: например, коммуникации по телефону, в машине, на кухне во время приготовления ужина и т.д.

Придумать такой сценарий диалога достаточно не просто. Но еще сложнее сделать такой диалог похожим на общение с другим человеком, а не роботом. Я был на нескольких мероприятиях Google, и там один из спикеров рассказывал об использовании метафор. Оказывается, использование этого литературного инструмента делает диалог более привычным для пользователя и повышает конверсию. Например, на запрос «Включи свет в прихожей», если в этой комнате нет лампочек, Alexa ответит примерно так: «Извините, кажется я не могу найти никаких подключенных лампочек», а Siri ответит по-другому: «Девайсы в данной комнате не подключены». Разница этих двух ответов в том, что Alexa использует фразу «Я не могу найти», в другом варианте ее ответа была фраза «Я не вижу никаких устройств». Мы, конечно, понимаем, что она не может ни «искать», ни «видеть» в обычном для нас смысле, но при этом само использование привычных для человека фраз делает разговор более естественным.

Voice User Experience <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.technoidentity.com%2Fauthor%2Fsharmavj%2F&postId=75055" rel="nofollow noreferrer noopener" target="_blank">Sharma Vemuri</a>

Задач стоит очень много. Например, очень важно то, как мы обращаемся к пользователю. У нас в «Робот Вера» был стандартный скрипт, в котором предполагалось обращение на «вы». Но одна компания, которая набирала студентов, решила изменить это и стала использовать «ты». Конверсия выросла почти на 20%. Также очень важно сохранять контекст беседы. В нашем случае это резюме и вакансия. Если мы знаем какую-то информацию из резюме кандидата, то мы ее не спрашиваем. В других продуктах контекстом может являться информация о том, сколько раз пользователь запрашивал услугу, в какой стране он находится, с каким устройством коммуницирует и т.д.

Очень важно не давать пользователю много информации для прослушивания. Например, если мы нашли несколько подходящих вакансий, мы не можем сразу озвучить их все вместе с условиями, потому что тогда пользователю придется слушать эту информацию несколько минут. Прослушивание информации для людей — это пассивная деятельность. Здесь очень легко потерять внимание пользователя. В Google Assistant при озвучивании результатов поиска этот момент также учитывается, и Assistant не озвучивает все результаты сразу, а сперва называет только самый релевантный. Также нужно быть готовым к нестандартным сценариям использования.

В каждом взаимодействии с пользователем необходимо сохранять принцип диалога, стараться делать его максимально человечным. Например, фразу «Ваш запрос принят» лучше поменять на «Я понял вас». Даже несмотря на то, что в GUI мы часто используем более механические фразы, здесь стоит учитывать то, что сама парадигма восприятия этих коммуникаций у человека изменилась. Если раньше он коммуницировал с сайтом, программой, какой-то абстрактной системой, то теперь он общается с ассистентом, у которого есть имя, который знает о пользователе много информации, способен поддержать беседу и даже пошутить.

Помимо проектирования самого диалога, его ответвлений и фраз, необходимо также учитывать нестандартные кейсы. Например, когда пользователь перебивает робота или отвечает вопросом на вопрос. Здесь есть, конечно, технические ограничения, поэтому Conversation Designer очень плотно работает в связке с разработчиками. Можно также анализировать речь пользователя. Например, понимать, когда он настроен агрессивно или наоборот позитивно, и уже в зависимости от этого строить диалог. Технологии дают все больше возможностей для совершенствования в этой области, поэтому количество фич будет только расти.

Крупные технологичные гиганты имеют свои собственные гайдлайны по голосовым и диалоговым интерфейсам. Например, вот гайдлайн от Amazon, а вот от Google.

В США простой поиск в LinkedIn дает несколько сотен вакансий. Набирают как крупные технологические компании, вроде Amazon и Google, так и огромное количество стартапов. Недавно стали попадаться и вакансии от Apple в подразделение, которое занимается Siri. Также появляются целые компании, которые специализируются в этой области. Например, VUI и Xandra.

В России пока вакансий совсем мало. Удалось найти только парочку от компаний Just AI и Eora. У Яндекса тоже есть вакансия, связанная с этой деятельностью, но называется она «Дизайнер продукта».

Кажется, что многие компании, которые так или иначе занимаются голосовыми и разговорными интерфейсами, еще не пришли к пониманию, что необходимо выделять отдельных сотрудников под эти задачи, и сейчас они распределены, как и у нас в «Робот Вера». Но уже сейчас сложно не заметить тренд на рост специалистов в этой области, спрос на которых, судя по всему, только продолжит увеличиваться.

Четкие требования рынок еще не сформировал, поэтому многие компании экспериментируют с людьми, имеющими абсолютно разный опыт. Например, Conversation Designer из Google Майкл Гринберг, с которым мне удалось познакомиться в Долине, по своей специальности лингвист. Он знает немецкий и испанский и очень хорошо понимает структуру языка, этимологию слов и литературные приемы. Часто в требованиях вакансий встречаются опыт работы дизайнером или соответствующее образование.

Еще я видел несколько стартапов, которые нанимают на эти позиции кандидатов с технической степенью, но техническое образование здесь скорее необязательно. Например, в Amazon на позициях VUI-дизайнер работает много кандидатов с гуманитарным образованием. Поэтому если у вас или у ваших знакомых нет технической степени, но при этом есть желание присоединиться к миру технологий и инноваций — работа над диалоговыми системами и подобные профессии открывают новые возможности. Так, роботы не только забирают рабочие места, но и создают их.

Дизайнеры голосовых интерфейсов. Кто это? Чем они занимаются? И как стать одним из них?

Чем они занимаются?

Конкретные примеры задач VUI-дизайнера?

Какие компании набирают таких специалистов?

Какие требования и что нужно сделать, чтобы стать таким специалистом?