Голосовое управление. Много шума из ничего?

Голосовое управление. Много шума из ничего?

Мы только и слышим: будущее за голосовыми интерфейсами, они радикально изменят нашу повседневную жизнь. А если вы скептически относитесь к Siri и разочарованы Alexa, нужны ли вам такие перемены?

Давайте разберем все плюсы и минусы голосовых интерфейсов, действительно ли они заслуживают всей этой шумихи?

Технологии меняют мир, мир меняет технологии

С началом пандемии, когда тачскрины и кнопки стали вызывать ужас, голосовое управление обрело новые неожиданные плюсы. Пару лет назад если бы кто-то прокричал в телефон: «Покажи мне погоду», его сочли бы сумасшедшим. Сегодня это в порядке вещей. И хотя вокруг полно ретроградов — таких же, как я — сложно представить, что новые поколения, которые придут на смену зумерам и «альфа»-детям, будут использовать клавиатуру или сенсорный дисплей, а не управлять гаджетом с помощью голоса. Это как лавина, которая начала свое движение - то, что она вас накроет, всего лишь дело времени. И правда, зачем всё усложнять с инструментами UI, когда инструмент общения — голос — подберет ключик к любому устройству на интуитивном уровне?! И что в итоге? Если клавиатура для нас всегда была просто «железом», то виртуальные ассистенты — почти что друзья.

Существуют разные типы речевых технологий:

  • Автоматическое распознавание речи (САРР) — другими словами, преобразование голоса в цифровые данные, например, в текст. Именно эта технология лежит в основе Siri и Alexa.
  • Синтез речи — а именно, компьютерное моделирование голосового сообщения на основе текстового. Как известно, это очень популярная функция в Тик-Ток.
  • Верификация голоса — т.е., голосовая биометрия.

Штука, облегчающая жизнь, Карл!

Если говорить максимально просто, голосовой интерфейс — это такая штука, которую придумали, чтобы нам всем облегчить жизнь. Представьте ситуацию: вам вдруг захотелось узнать, сколько лет Канье Уэсту. При этом вы за рулем и не можете открыть браузер в телефоне, чтобы найти в поисковике нужную информацию. Не вопрос — голосовой помощник всё сделает за вас.

Речевые технологии сейчас активно внедряются во всех сферах. Их присутствие особенно заметно в медиа, производстве, образовании и даже в финансовом секторе. Теперь банковские операции можно совершать в удаленном режиме, и всё благодаря технологии верификации голоса. Киноиндустрия использует систему распознавания речи для экономии времени на создание субтитров. Голосовой контроль помогает слабовидящим людям почувствовать себя полноценными членами общества.

Начиная с 2020 года голос является ключевым элементом пользовательского интерфейса и по этому принципу теперь можно отличить высокотехнологичные сайты от всех остальных.

Какие бывают?

Эксперты из Nielsen Norman group предлагают различать 5 видов голосовых интерфейсов:

  • Голосовой ввод. Мы все знаем, как это работает. Достаточно сказать «Окей, Google» или «Привет, Siri», а затем озвучить запрос.
  • Естественный язык. Почти то же самое, что и голосовой ввод. Разница только в том, что для такого виртуального помощника не важны формулировки, он сможет распознать как четкую, предельно лаконичную голосовую команду, так и естественную речь.
  • Голосовой вывод. Выходящая информация произносится голосом, а не выводится на экран.
  • Интеллектуальная интерпретация. Прежде чем выполнить запрос, виртуальный помощник тщательно его анализирует, а для этого использует контекст — например, учитывает действия, которые пользователь совершал ранее.
  • Содействие. Высший пилотаж. Виртуальный помощник анализирует ситуацию и предлагает решения задач, которые пользователь даже не запрашивал. Вот оно — то самое будущее из фантастических фильмов с роботами, которые умеют читать наши мысли!

Что дальше?

Голосовые технологии активно набирают обороты — сейчас им отдают предпочтение уже 40% пользователей. Даже если вы не любитель новшеств, эта тенденция со стопроцентной вероятностью настигнет и вас. Потому что голосовое взаимодействие - это уже не альтернатива, а, похоже, единственный путь развития клиентского сервиса. Как когда-то Интернет и смартфоны, голосовое управление окончательно поглотит все сферы нашей жизни и полностью переосмыслит их.

Согласно прогнозам, к 2025 году мировой рынок виртуальных ассистентов вырастет на 17,2%, т.е. до 26,8 миллиардов долларов. Это уже совсем другая математика. Ни в коем случае не умозрительная.

Сегодняшняя действительность такова, что даже розетки оснащены голосовым управлением, не говоря уже об автомобилях и смарт-ТВ. Если в 90-х компании повально разрабатывали стратегию экспансии в Интернет, в 2000-х — стратегию по доминированию в поисковой выдаче, в 2010-х — стратегию маркетинга приложений, то теперь, видно, пришло время подумать над новой стратегией, которая сосредоточится вокруг голосовых интерфейсов. Другого пути просто нет.

Эту статью я перевёл из блога Humbleteam, вы можете её прочитать в полной версии на английском языке здесь: https://www.humbleteam.com/secrets/voicecontrol

22
8 комментариев

Чёт какая-то херня, а не статья

2
Ответить

Какая-то херня, а не комментарий

1
Ответить

Siri появилась аж 10 лет назад и с тех пор практически никак не эволюционировала. Другие голосовые ассистенты тоже далеко не ушли.
Ни те, ни другие зачастую не могут нормально обработать простейшие запросы и нормально постоянно использовать голосовое управление до сих пор невозможно.
Так что совсем непонятно на чем основан столько оптимистичный тон статьи
Хотелось бы конечно эффективно общаться с техникой голосом, но пока это видимо дело не самого ближайшего будущего

2
Ответить

Эти тренды основаны на том, что мы менторим стартапы в акселераторах, причем нормальных: techstart, seedcamp, SWG и там появляются стартапы с войс интефейсами и им охотно дают деньги. Такого не было всего пару лет назад.
Понятно что работает не идеально, но это не важно, так со всеми технологиями (вспомните первые айфоны).

Все больше компаний делает интерфейсы, все больше под это инвесторы дают денег – имхо это тренд.

Ответить

С началом пандемии, когда тачскрины и кнопки стали вызывать ужас

По ссылке цитируется исследование, согласно которому американские владельцы колонок с голосовым управлением стали чаще ими пользоваться после начала пандемии.

Начиная с 2020 года голос является ключевым элементом пользовательского интерфейса

Кто сказал?

сейчас им отдают предпочтение уже 40% пользователей

По ссылке число 40 вообще нигде не встречается. Наверное, имелось в виду какое-то другое число, округлённое до 40, но какое — непонятно.

Даже если вы не любитель новшеств, эта тенденция со стопроцентной вероятностью настигнет и вас

Тенденция настигнет? Это как? О_о Ну вы прям Наполеон: «Пишите коротко и неясно».

2
Ответить

Спасибо, что всё прочитали и разобрались. Такой подход вызывает уважение. По поводу комментариев по порядку:

Первый тезис — так это одно и то же. Например, мы интервьюируем пользователей и им нравится пользоваться голосовыми интерфейсами для поиска маршрута вместо того, чтобы тыкать куда-то.

Второй — мы и говорим. Все пользуются, все продается, куча компаний этим занимается и инвесторов вкладываются.

А что касается Наполеоновского слога: у нас на десять английских статей приходится одна русская, — подправим!

Ответить

Очень надеюсь, что голосовое управление не станет основным способом взаимодействия с гаджетами. Никогда.
Во-первых, есть очень немаленький пласт людей, для которых общение с помощью устной речи затруднительно либо в принципе практически невозможно. В силу физиологических причин в том числе.
Во-вторых, в большинстве случаев я не хочу чтобы окружающие знали о моих действиях на устройстве. Даже если иметь собственный обособленный кабинет и дома, и в офисах — остаётся множество ситуаций, где взаимодействие с электроникой происходит вне его.

Будущее интерфейсов должно быть за трекингом взгляда и/или нейроинтерфейсами. Голос - отстой.

1
Ответить