Снятся ли роботам человеческие диалоги?

Или как нейросети пытаются нас понять (и не сойти с ума)

Снятся ли роботам человеческие диалоги?

Вступление: разговоры, которые всё усложняют

Искусственный интеллект давно уже не пугает — он помогает. Пишет тексты, рисует картины, советует фильмы, а иногда даже заменяет подкастера. Сервисы на базе AI и ML растут, как грибы после апдейта на Product Hunt: AI и GPT в описании проекта — почти как «без сахара» на упаковке жвачки, вроде бы необязательно, но модно.

Как бы то не было, большинство моих знакомых (и не только из сферы IT) уже активно взаимодействуют с AI – задают им умные и не очень вопросы, генерировали тексты и изображения, привлекают к написанию кода и дизайну сайтов/продуктов/игрушек да и просто всячески развлекаются.

Давно уже появилось много курсов “как правильно общаться с искусственным интеллектом”. Но я бы просто рекомендовал всегда говорить роботу “спасибо”. Авось зачтется при восстании машин.

AI-сервисы прекрасно справляются с генерацией данных. Но так ли хороши нейросети в понимании именно повседневной человеческой речи? Ведь между собой мы общаемся не так, как с машиной. Даже я в этой заметке стараюсь не допускать ошибок и излагать мысли последовательно и структурировано. Но если я буду доносить эту же информацию человеку в личной беседе, то информация явно будет подаваться иначе. Сильно проще.

Я попробую разобраться в способностях AI к восприятию, основываясь на моем опыте работы с сервисом Речевой аналитики от Calltracking.ru, в рамках которой мы ежедневно обрабатываем порядка 500 часов речи и для анализа данных применяем в том числе нейросети.

Речевая аналитика: когда бизнесу нужно послушать

Для начала разберёмся, что вообще такое речевая аналитика.

Речевая аналитика — это система анализа голосовых данных: звонков, записей, разговоров. Цель — понять, о чём говорят клиенты, как общаются сотрудники, и почему всё идёт не по скрипту.

Чаще всего это используется в:

  • Менеджменте: мониторинг соблюдения стандартов, оценка качества работы операторов.
  • Маркетинге: выявление потребностей, болей, инсайтов (иногда неожиданных).

В целом, речевая аналитика призвана помочь бизнесу в повышении производительности и качества продуктов и услуг, улучшении обслуживания клиентов, повышении удовлетворенности клиентов.

Извлечение информации и последующий анализ можно осуществлять, фактически, двумя способами – прослушкой с использованием людей или же с помощью технических решений, в том числе основанных на машинном обучении.

Как это работает: человек vs нейросеть

Извлечение информации и последующий анализ можно осуществлять, фактически, двумя способами – прослушкой с использованием людей или же с помощью технических решений, в том числе основанных на машинном обучении. И вот тут начинается магия.

Человек слышит речь и сразу интерпретирует. Тон, акцент, иронию, контекст – всё в дело. Наша команда тегираторов ежедневно размечает сотни часов звонков. Их точность на задачах вроде “определи целевой звонок” или "какой услугой интересовался клиент" – больше 99,8%. Да, это почти безошибочно. Правда, требует времени и кофе.

Искусственный интеллект не понимает речь в чистом виде. Для извлечения смыслов мы используем Pipeline: очистка звука, диаризация при необходимости, распознавание каждого спикера, транскрибация речи в текст. При этом некоторые потери возможны на каждом этапе. Но! Даже с идеальными микрофонами никакая система не даст 100% точности. А если это запись телефонного звонка или с бейджа, где половину фразы перекрывает кашель или лай собаки? Удачи.

Мы тестировали несколько популярных сервисов транскрибации – точность в среднем 90-95%. Хорошо? Да. Достаточно? Не всегда. Например у нас в одном разговоре имя Елизавета один раз превратилось в “или за этой”, а другой в “еле-еле заветная”.

Слова — это только начало

Нужно уточнить, что раньше сервисы речевой аналитики больше работали с готовыми словарями. То есть для ответа на поставленный вопрос использовались заранее составленные списки слов и фраз, по которым осуществлялся поиск вхождения. Если слово или фраза найдены в разговоре - событие фиксируется. Использовалась различная обработка информации, повышающая вариативность работы, учитывалась морфология слов, автоматический подбор синонимов и так далее. Современные же LLM вроде ChatGPT, Claude или Gemini прекрасно работают с контекстном и очень качественно понимают смысл написанного. И самое важное - всё это происходит очень и очень быстро.

Но до по-настоящему человеческого понимания — как до Луны на самокате.

  • Понимание интонации и подтекста. Можно сказать “конечно, вы молодец” искренне, а можно — так, что хочется провалиться под пол. ИИ этого пока не считывает.

  • Сарказм, пассивная агрессия, ирония. Даже не все люди их понимают с первого раза. Что уж говорить про алгоритм.

  • Многозначность. “Пошёл дождь и собака” — человек поймёт, ИИ может зависнуть. Особенно если собака — товарная позиция.

Почему всё упирается в входные данные

ИИ – это не волшебство. GPT – это Generative Pre-trained Transformer, где “pre-trained” — ключевое. Чем больше обучающих данных, тем умнее результат. А вот где взять 10 000 размеченных звонков для одного нового клиента – большой вопрос. Если их не будет, то нам нужно будет размечать данные самостоятельно, с привлечением всё тех же сотрудников-тегираторов.

Тегираторам же нужен текстовый бриф и 10-20 записей для обучения, после чего они могу приступать к полноценной работе

Сколько это стоит и как долго ждать?

Стоимость и сроки — один из самых частых (и справедливых) вопросов. Если вы хотите проанализировать тысячи звонков вручную, готовьте бюджет на команду операторов, которая будет заниматься этим неделями. Человек тратит 10 минут на 10 минут разговора — арифметика простая. Наши сотрудники работают с такими задачами годами, у них есть множество дополнительных инструментов. Как результат - они затрачивают меньше времени – 7,5 минут на 10 минут разговора.

А еще людям сложнее отвечать на большое количество вопросов по одному звонку. Ведь для каждого звонка может быть как 10 критериев оценки, так и 60. Нейросети справляются с этим гораздо лучше, хотя тоже не идеально.

Нейросети, конечно, дешевле и быстрее: один разговор анализируется за секунды, а масштабирование почти не требует дополнительных ресурсов. Но и здесь не всё бесплатно – лицензии на AI-сервисы, аренда облака, хранение данных, дообучение моделей – всё это выливается в ощутимую сумму. Особенно если вы хотите не просто “как попало”, а с высокой точностью и безопасной инфраструктурой.

И да, хороший результат требует подготовки: транскрибация, очистка, настройка правил, возможно – создание собственных словарей и fine-tuning моделей. В среднем, запуск проекта с AI-аналитикой может занять от пары дней до пары месяцев. Но когда всё заработает – масштабирование идёт практически мгновенно.

Вместо выводов: мы учим машин, а они — нас

В том или ином виде развитие искусственного интеллекта идёт уже очень много лет и сейчас оно ускоряется. Когда-то построение маршрута по карте считалось задачей для искусственного интеллекта. Потом появился тот же алгоритм Дейкстры (и ему альтернативы) для поиска кратчайшего пути в графе, задача стала более решаемой. Сейчас же маршрут перестраивается оптимальным способом на лету, если у вас на пути образовалась пробка.

Отказ от одних путей развития искусственного интеллекта в пользу других позволил получить нам системы, которые фактически учатся сами на тех данных, что мы им предоставим. Но всегда возникает проблема в достаточности данных.

Да, нейросети приближаются к пониманию человеческой речи – но пока всё ещё с оглядкой. Проблема не в идее, а в деталях: в качестве звука, специфике лексики, контексте и нехватке данных для обучения.

С другой стороны – технологии развиваются с ошеломительной скоростью. Новые архитектуры, увеличенные лимиты токенов, модели со всё более тонкой настройкой на смысл – всё это говорит о том, что завтра точно будет лучше, чем вчера. Главное – не просто использовать инструменты, а делать это осознанно и с опытом.

В нашей компании мы уже не первый год развиваем собственный сервис речевой аналитики и за это время на практике убедились: гибридный подход, в котором ИИ усиливает работу человека (а не заменяет), даёт лучший результат. Мы умеем слушать и слышать – а главное, даём бизнесу не просто “данные”, а ответы на конкретные вопросы: что говорят клиенты, в чём проблемы на линии, и как это всё улучшить.

Так что да – роботы учатся разговаривать. Но если вам нужно, чтобы ваш бизнес заговорил на языке клиента уже сейчас, – дайте слово нам.

1
Начать дискуссию