Мы учим роботов говорить как люди. Но готовы ли люди разговаривать с роботами?

За последние пару лет качество голосовых ассистентов, по моему мнению, выросло настолько, что обсуждать сами технологии стало уже не очень интересно. Ещё совсем недавно разговор с роботом заканчивался практически сразу. Он не понимал контекст, путался в простых вопросах, говорил с характерными интонациями, по которым его можно было распознать за несколько секунд. Сегодня же многие из этих проблем постепенно уходят на второй план. Голоса становятся естественнее, ответы гораздо осмысленнее, а паузы всё больше напоминают обычный разговор.

При этом отношение людей к таким звонкам меняется гораздо медленнее, чем сами технологии.

Когда я впервые столкнулся с голосовыми ассистентами несколько лет назад, мне казалось, что вопрос доверия решится сам собой. Достаточно улучшить качество распознавания речи, сделать голос менее механическим, научить систему удерживать контекст разговора и проблема исчезнет. В какой-то момент заметил, что технологии действительно начали приближаться к этому уровню, а вот отношение людей осталось примерно тем же.

Любопытно, что большинство разговоров о голосовом ИИ всё ещё строится вокруг качества речи: на сколько хорошо и живо звучит голос, как быстро отвечает система и т.д.. В общем - отличит ли человек робота от оператора. Но чем больше наблюдаю за подобными проектами, тем чаще возникает ощущение, что мы смотрим немного не туда.

Представим ситуацию: вы звоните в банк. Возможно, разговор будет не очень приятным, сотрудник окажется недостаточно компетентным, он будет читать скрипт практически без отклонений. Но в большинстве случаев сам формат общения остаётся понятным. На другом конце линии находится человек со своими ограничениями, настроением, опытом и правом на ошибку. Мы хорошо знаем правила такого взаимодействия и почти не задумываемся о них.

С голосовыми ассистентами всё немного иначе. Даже когда система говорит уверенно и практически без ошибок, человек продолжает воспринимать разговор через призму самого факта, что общается с машиной. Причём интересно здесь не недоверие к технологии как таковой. Нам давно доверяют навигацию, банковские приложения и поисковые системы. Скорее возникает ощущение неопределённости. Не всегда понятно, насколько свободно можно вести разговор, где проходят границы сценария и что произойдёт, если выйти за рамки ожидаемого диалога.

Возможно, поэтому разработчики уделяют так много внимания вещам, которые на первый взгляд выглядят второстепенными. Кто-то добавляет фоновый шум офиса, короткие подтверждающие фразы, рассчитывает скрупулезно паузы между репликами. Когда впервые сталкиваешься с подобными задачами, они кажутся скорее косметическими улучшениями. Такие детали работают не только на реалистичность голоса, они помогают человеку быстрее понять саму ситуацию общения.

Мне кажется, здесь скрывается довольно интересный парадокс. Мы привыкли оценивать развитие голосового ИИ через технические показатели. Нас интересуют задержки ответа, качество синтеза речи, точность распознавания. Всё это действительно важно.

Но конечный пользователь сталкивается не с метриками. Он сталкивается с новым форматом взаимодействия, для которого пока ещё не успели сформироваться привычные правила.

Когда-то похожая история происходила с интернет-платежами. Сегодня сложно представить, что люди всерьёз опасались вводить данные банковской карты на сайте. Технологии безопасности, конечно, сыграли свою роль, но дело было не только в них. Постепенно сам процесс стал привычным, пользователю больше не нужно было каждый раз заново принимать решение, можно ли доверять системе.

Возможно, с голосовыми ассистентами происходит что-то похожее. Инженеры продолжают решать задачу качества разговора, а рынок постепенно привыкает к самой идее разговора с машиной. И чем дальше развивается технология, тем интереснее становится наблюдать не за тем, насколько хорошо робот научился говорить как человек, а за тем, как меняются ожидания самого человека от такого разговора.