UI больше не нужен? Началась эра голосовых интерфейсов
Мы 20 лет полировали экраны приложений и сайтов 📱. Но клиенту всё равно, как выглядит ваш UI, если за 20 секунд его вопрос решается голосом 🎤. В этой статье расскажу, как аудиоинтерфейс обходит визуальный и почему общение в чатах больше не нужно 🤯.
Мы это уже проходили: СМС, диски, кассеты 📼
Когда-то СМСками пользовался весь мир. Это был стандарт коммуникации, «так всегда было». Потом пришли мессенджеры — и СМСки превратились в сервис для одноразовых кодов.
У многих дома стояли полки с дисками, видеокассетами, коллекциями фильмов и музыки. Сегодня контент смотрят «где-то в облаке», либо скачивается за пару минут.
Паттерн один и тот же: появляется продукт того же назначения, но с другим уровнем удобства, и старый формат уходит на второй план.
С интерфейсами сейчас начинается то же самое. Последние 15–20 лет мы жили в парадигме визуального UI:
- сайт — найти кнопку, кликнуть;
- приложение — открыть нужный экран, прокликать по вкладкам;
- работа — открыть Word/Excel/CRM и руками собрать, оформить, отправить.
И вот в этот устойчивый мир врывается новый игрок — аудиоинтерфейс и цифровые сотрудники. Не человек изучает интерфейс, а агент изучает его запрос и делает всё за него.
Цифровой сотрудник: не бот 2018 года, а живой ассистент
Важно сразу договориться в терминах. Я не про тупых аудиороботов, которым по три раза рассказываешь, что у тебя за вопрос, и всё равно они тебя не понимают.
Современный аудиоинтерфейс — это цифровой сотрудник, который:
- понимает живую речь, а не только жёстко заскриптованные команды;
- подключён к базам знаний и API, умеет не только отвечать, но и выполнять действия;
- сам управляет визуальным интерфейсом: открывает нужные экраны, подставляет данные;
- говорит на языке пользователя — по тону, стилю, иногда голосом, почти неотличимым от человеческого.
Проще: вы формулируете задачу словами, а всю рутину по поиску нужной кнопки или информации агент берёт на себя.
Было так: «найди нужную страницу» 🔍🖱
Возьмём пример ElevenLabs — одного из лидеров в генерации и переводе голоса. Классический путь (визуальный UI):
Хочу перевести видео на YouTube с английского на русский
Вы гуглите сайт → ищете нужный продукт → читаете тарифы → регистрируетесь → загружаете видео → ждёте результат. Интерфейс можно полировать бесконечно, но суть одна: вы сами исследуете продукт.
Компания сделала новый путь:
- Вы попадаете на сайт и нажимаете одну кнопку: «Поговорить с ассистентом».
- Говорите:«Привет, хочу перевести видео на YouTube с английского на русский. Что мне нужно и сколько это будет стоить?»
- ИИ-агент сразу:— подтверждает, что так можно;— кратко озвучивает тарифы и варианты;— сам переключает вас по нужным страницам;— подсказывает куда нажать;— доводит до результата.
Вместо «разобраться в интерфейсе» вы просто формулируете задачу и получаете готовое действие, а не ссылку на раздел FAQ. И это уже работает сейчас! Попробуйте сами.
Freedom уже живёт в 2030-м: голосовые ассистенты на проде 🚀🏦
Финтех — одна из первых отраслей, где голосовые агенты выходят в прод.
SME-сегмент
В приложении Freedom Казахстан для бизнеса живёт голосовой ассистент с десятками сценариев и разговаривает голосом основателя Тимура Турлова. Пользовательский путь выглядит так:
Агент, выстави платёжку на ООО “Ромашка” за аренду офиса на 300 000. Реквизиты те же, что в прошлом месяце
Через несколько секунд ассистент отвечает:
Готово, платёжка сформирована. Назовите одноразовый код / подтвердите операцию
Или:
Заплати зарплату сотрудникам за этот месяц, как в прошлый раз
Не нужно искать раздел «Платежи», копаться в шаблонах и реквизитах. Не нужно подбирать особенную фразу, чтобы ассистент тебя понял. Теперь агент понимает все наши "бе" и "ме", а так же отвечает в человеческом стиле, с предыханием и интонациями.
Физики и лайфстайл
Так же Freedom готовит релиз ассистента и для физических лиц. Буквально недавно в режиме онлайн на проде главный продакт продемонстрировал несколько сценариев:
Подскажи рецепт бешбармака и доставь нужные продукты на мой адрес
За несколько секунд ассистент даёт рецепт, собирает корзину во встроенном маркетплейсе суперапа и предлагает подтвердить доставку. То, что раньше было походом по разделам и ручным сбором корзины, превращается в пару фраз.
За пределами финтеха 🌍🚪
Цифровые сотрудники перформят не только в финансовой сфере. голосовой агент полностью заменяет приложения по бронированию ресторанов.
Пользователь просто звонит. На линии не человек, а ИИ-ассистент, который подбирает время, уточняет детали визита и бронирует столик. Гостю не нужно открывать ни один сайт, изучать его, чтобы узнать детали или забронировать столик — достаточно одного звонка.
Кстати если вам интересна тема голосовых агентов, рекомендую посмотреть интервью с Давидом Яном на канале "Оскар Хартманн", Давид уже несколько лет работает над этим направлением и у него отлично получается.
«Но исследования же говорят, что все уходят в чаты!» 📊💬
Распространённый тезис:
«Клиенты не любят звонки, голос умирает, все уходят в чаты»
Есть много исследований, в том числе российских, где показано, что пользователи предпочитают чат голосу. Данные верные, я сам работаю в этой отрасли, но у этой логики есть одна проблема: они измеряют прошлую технологическую реальность.
Ещё пару лет назад «голосовой интерфейс» означал:
- ожидание оператора на линии;
- нежелание разговаривать с человеком, так как будет дискомфортно рассказывать о своей проблеме или противостоять продаже;
- долгие переключения «на другого специалиста»;
- примитивный аудиобот, который не понимает смысла;
- банально бизнесу было выгоднее обслуживать клиентов в чате, поэтому они и переводили клиента в чат
В такой конфигурации, конечно, чат выигрывал: можно написать, закрыть приложение и вернуться, когда ответят.
Но это не значит, что формат голоса плох. Это значит, что технологии были плохи для голоса.
ИИ-агенты меняют картину:
- нет очередей и ожидания;
- нет человеческой усталости и «переключу вас на коллегу»;
- есть моментальный ответ и реальные действия.
- стоимость почти уже в 5 раз дешевле оператора
Все исследования «чат против голоса» до появления нормальных аудиоинтерфейсов — это фотография старой эпохи. Планировать 5–10 лет вперёд, опираясь только на эти данные, рискованно. Да просто давайте вспомним себя, почему нам удобно записать голосовое, а не печатать сообщение?)
Что это значит для бизнеса 💼📈
Последние 15–20 лет цифровая индустрия жила в логике:
«Побеждает тот, у кого лучший визуальный интерфейс».
Мы инвестировали в дизайн-системы, проводили тысячи A/B‑тестов, переставляли кнопки в поисках «самого конверсионного» варианта, вылизывали онбординги и микроанимации. Часто именно за счёт визуального UX выигрывали конкуренцию.
Но если честно посмотреть на траекторию технологий, напрашивается простой вывод:
Через 5 лет клиенту в большинстве сценариев будет всё равно, как выглядит ваш интерфейс, если цифровой сотрудник решит задачу за 10–30 секунд голосом.
В этот момент визуальный UI опускается с уровня конкурентного преимущества до уровня гигиены. Нормальный UI по-прежнему обязателен, но перестаёт быть точкой дифференциации.
Новой точкой конкуренции становится качество голосового агента — цифрового сотрудника, который:
- понимает задачу с первого раза;
- сам проходит по нужным системам и доводит действие до конца;
- объясняет условия простым языком, без перегруза терминами и PDF-ами.
В мире, где «просто нормальный интерфейс» есть у всех, выигрывать будет тот, у кого цифровой сотрудник быстрее, умнее и полезнее для клиента.
Как будет выглядеть ближайшее будущее 🔮🚀
Моя ставка:
Каждый более-менее серьёзный продукт — сайт, суперап, сервис — будет иметь своего голосового ИИ-агента.
Такого, который:
- знает базу знаний компании;
- имеет доступ к ключевым API;
- умеет подстраиваться под пользователя;
- может общаться с другими цифровыми сотрудниками (B2B-интеграции уже внутри диалога).
И это не футурология. В одной только Кремниевой долине уже работают сотни компаний, которые занимаются цифровыми сотрудниками: по разным оценкам, 300+ команд пилят голосовых агентов и инфраструктуру под них. Деньги и таланты уже там — просто массовый рынок ещё не до конца осознал масштаб.
И это только первый слой.
Следующий уровень — когда у каждого человека появится персональный агент, а агенты бизнесов и клиентов будут общаться между собой.
Пользовательский путь станет двухуровневым:
- Человек формулирует задачу своему персональному ассистенту:«Хочу купить телевизор. Подбери хороший вариант под мою квартиру и бюджет».
- Персональный агент уточняет пару деталей: бюджет, диагональ, важные функции.
- Дальше он сам «идёт в поле»: разговаривает с агентами маркетплейсов, ритейлеров, банков, логистики, сравнивает условия, наличие, доставку, гарантии.
- Возвращается не с «10 ссылками», а с готовым предложением:«Нашёл три варианта под твой запрос. Вот плюсы/минусы, вот где дешевле, вот где быстрее привезут. Могу оформить заказ и рассрочку — подтверждаешь?»
Потом этот же агент договорится с цифровым сотрудником выбранного магазина о времени доставки и деталях. Всё больше коммуникации будет происходить между агентами, а не между человеком и интерфейсом.
Человек перестанет «парсить сайты», изучать вкладки и даже читать выжимки от перплексети. Клиентский путь будет начинаться не с главной страницы приложения, а с фразы:
Привет, мне нужно сделать вот это…
А дальше уже неважно, как устроен конкретный UI. Важнее, насколько хорошо агенты умеют договариваться между собой и отстаивать интересы пользователя и бизнеса.
Что бизнесу стоит начать делать уже сейчас 🤔💡
Чтобы не оказаться в роли СМСок после прихода мессенджеров, бизнесу уже сейчас стоит начать пробовать цифровых сотрудников вживую, а не только читать про них в новостях.
1. Крупный бизнес vs малый и средний: как заходить в тему
Хорошая новость в том, что не обязательно сразу строить всё с нуля. Но стратегия сильно зависит от масштаба.
Если у вас крупный бизнес, вам выгодно покупать или развивать именно платформенное решение для голосовых агентов. Нагрузка на аудиоинтерфейсы будет только расти, и на длинной дистанции критична низкая себестоимость минуты/диалога. Своя платформа или глубоко интегрированное enterprise‑решение здесь окупится за счёт объёмов.
Если вы малый или средний бизнес. Не тратьте ресурсы на свои разработки. Гораздо рациональнее начать с готовых SaaS‑решений. Большинство из них уже имеют низкий порог входа: достаточно зарегистрироваться, за пару часов собрать своего агента под типовые вопросы клиентов и встроить его на сайт, в виджет, в приложение или просто привязать к номеру телефона.
Дальше логика одна для всех:
- Этап 1. Научить агента консультировать. Сначала просто скормите ему вашу базу знаний: ответы на частые вопросы, инструкции, тарифы, условия. Пусть агент уверенно отвечает на типовые запросы клиентов и снимает нагрузку с поддержки.
- Этап 2. Дать агенту управление интерфейсом. Следующий шаг — научить его переключать вкладки, скроллить страницы, открывать нужные разделы и подсвечивать важные элементы. Агент не только отвечает, но и «ведёт за руку» по вашему сайту или приложению.
- Этап 3. Подключить API и реальные действия. На третьем этапе добавляются API: оформление заявок, заказы, изменения настроек. Агент может попросить клиента зарегистрироваться или авторизоваться, после чего начнёт выполнять конкретные действия в ваших системах.
Через пару лет наличие цифрового сотрудника будет восприниматься как база — примерно как сейчас мобильное приложение или онлайн‑чат. Сейчас это ещё конкурентное преимущество.
2. Добавлять аудиоинтерфейс поверх существующего UI
Не нужно пока ломать текущий интерфейс. Достаточно:
- добавить точку входа «Поговорить с ассистентом» в ключевых местах;
- научить агента навигировать по вашему UI и выполнять действия в системах.
Пользователь сам выберет — кликать или говорить. При этом я уверен, буквально через год мы увидим первые сайты/приложения вообще без UI, будет только аудиоинтерфейс и все больше компаний будет переходить на такой формат.
3. Начать мерить не только клики, но и «время до результата»
Ключевая метрика аудиоинтерфейса:
Сколько времени уходит у клиента от формулировки задачи до её решения?
Если голос решает быстрее и надёжнее — он победит, даже если визуал у вас великолепный.
4. Не ждать идеальных технологий
Идеальных голосовых ассистентов не будет никогда, как не бывает «идеального дизайна главной».
Победит тот, кто раньше начнёт внедрять и обучать цифровых сотрудников на своей реальности, а не будет пять лет смотреть на чужие кейсы из США.
Как это часто бывает, 40% рынка забирает тот, кто просто первым начал.
----
P.S.
Если вы дочитали до этого места — вы мой любимый читатель ❤Отблагодарите меня за время и усилия: влепите 🔥, подпишитесь на блог и загляните в другие мои посты. К примеру там история, как А/В тест убил человека. Не теряйтесь, скоро выпущу новые интересные статьи!