Строим диалог: как создать коммуникативный ИИ и настроить его под свои задачи

Человеку гораздо удобнее взаимодействовать с машинами на естественном языке, а не через набор команд. Но как объединить интуитивное и простое общение с четким выполнением определенных действий роботом? Григорий Шершуков, директор по продуктам группы компаний «Наносемантика» рассказывает, как решить эту и ряд других сложных задач с помощью диалоговой платформы DialogOS.

На протяжении десятилетий человеческий язык, полный контекстов, эмоций и нюансов оставался непостижимым для компьютеров. Но со временем человек научился строить общение с машинами с помощью больших языковых моделей (LLM). Это положило начало взрывному развитию роботов с применением искусственного интеллекта (ИИ).

Однако LLM все еще не могут обеспечить четкий контроль и предсказуемость в коммуникации с машинами. Для этого нужны «правила» — инструкции, гарантирующие точное выполнение команд. Чтобы объединить возможности LLM с правилами, нужна диалоговая платформа, обеспечивающая автоматизированное взаимодействие через текст или голос для точного выполнения задач.

DialogOS — российская диалоговая платформа с ИИ

Компания «Наносемантика» с 2005 года работает в сфере ИИ, разрабатывая голосовых и текстовых виртуальных ассистентов, нейронные сети и системы анализа больших данных. Флагманский продукт компании — диалоговая платформа DialogOS.

DialogOS предназначена для разработки и поддержки разговорных систем на основе ИИ. Ее главной особенностью является модульная архитектура, которая позволяет гибко настраивать и масштабировать систему. Это делает платформу идеальной для создания решений любой сложности — от виртуальных ассистентов до сложного ИИ для робототехники. Возможности интеграции через API предоставляют компаниям полную свободу в настройке системы под свои нужды и существующие бизнес-процессы. Например, «Энергосбыт Плюс» с помощью голосового бота консультирует пользователей, принимает показания счетчиков, заявки на установку приборов учета и др. Так за первый год работы он снизил нагрузку на операторов более чем в 7 раз.

Одно из ключевых преимуществ DialogOS — способность использовать контекст на всех этапах диалога. Это значительно улучшает взаимодействие с пользователями, поскольку система понимает не только текущее сообщение, но и весь ход предыдущего общения. Это позволяет избежать повторяющихся вопросов и сделать общение с ИИ более естественным и плавным. Кроме того, платформа поддерживает многозадачность, что особенно важно для крупных проектов, где нужно одновременно обрабатывать большое количество диалогов.

Платформа работает на 40 языках и включает в себя огромную базу знаний, которая насчитывает 3611 диалоговых сценариев, 5230 специализированных словарей и более 3 миллионов адаптивных вопросов. Это гарантирует высокую гибкость при создании и настройке ассистентов для различных отраслей и сфер применения.

Интерфейс платформы DialogOS
Интерфейс платформы DialogOS

Для повышения точности работы с данными система использует предобученные нейронные сети, которые обеспечивают эффективное определение именованных сущностей (например, имена, даты, адреса) и классификацию интентов (целей поисковых запросов). Это важно для корректной интерпретации запросов пользователей, что делает взаимодействие с ассистентами ещё более точным и понятным.

Одним из главных преимуществ DialogOS является сочетание нейросетевых алгоритмов и ручных правил. В зависимости от задач платформа может использовать нейросети для решения сложных вопросов, требующих глубокого анализа контекста и интерпретации, а ручные правила — для обработки более простых и предсказуемых сценариев. Это позволяет добиться высокой точности при выполнении задач, сохраняя при этом гибкость и возможность адаптации. Так в КАПИТАЛ LIFE роботизированное голосовое меню с применением ИИ от «Наносемантики» способно свободно понимать и обрабатывать человеческий язык, классифицировать полученную информацию и адресовать абонента по наиболее подходящему направлению обслуживания согласно заранее запланированной логике или переводить на оператора.

Сложности и вызовы

С ростом интереса к большим языковым моделям (LLM), таким как ChatGPT, практически каждый новый заказчик задаёт вопрос о возможности подключения бота к ChatGPT, чтобы использовать мощности генеративного ИИ для обработки запросов пользователей и генерации интеллектуальных ответов. Однако использование подобных моделей в корпоративных процессах может вызывать сложности из-за больших объёмов данных, незнания специфики конкретного бизнеса и нюансов обработки естественного языка.

В DialogOS эти проблемы решаются за счет эффективного распределения задачи между различными компонентами системы. Система управляет взаимодействием между диалоговыми сценариями и языковыми моделями, такими как GPT, что позволяет сохранить баланс между скоростью обработки и качеством ответов.

Другая сложность использования таких LLM, как ChatGPT, — так называемые «галлюцинации». ИИ может выдавать информацию, которая не соответствует действительности, что может быть критичным в бизнес-контексте. Кроме того, такие модели работают по своим внутренним алгоритмам, которые трудно контролировать извне, что повышает риск получения некорректных ответов.

Чтобы решить эту проблему, DialogOS использует два ключевых подхода в работе с LLM. Во-первых, разработка специальных промптов — инструкций, которые направляют ИИ в рамках заданных сценариев, чтобы контролировать содержание его ответов. Во-вторых, обучение ИИ на материалах компании, чтобы он давал максимально релевантные ответы, адаптированные под специфику клиента.

Работа с различными GPT может не всегда удовлетворять требованиям безопасности при обработке персональных или коммерческих данных. В таких случаях организация может обучить собственную LLM внутри контура компании, что позволит гарантировать конфиденциальность информации и сохранить полный контроль над данными.

Использование DialogOS с гибкой интеграцией LLM, таких как ChatGPT или других моделей, помогает бизнесу внедрять ИИ в корпоративные процессы, обеспечивая высокое качество взаимодействия с клиентами и контроль над процессом коммуникации.

Решаемые задачи и кейсы

Цифровые аватары

Одним из наиболее интересных и перспективных направлений использования платформы DialogOS является создание цифровых аватаров. Они сочетают в себе обширную базу знаний, интегрированную с возможностями GPT-модели, что позволяет им эффективно взаимодействовать с пользователями в режиме реального времени.

Мультимедийный стенд Снежинка (МФТИ)
Мультимедийный стенд Снежинка (МФТИ)

Один из примеров — созданный в МФТИ мультимедийный стенд «Снежинка» c голосовым 3D-аватаром для международной арктической станции. Стенд состоит из комплекса высокотехнологичных инструментов, таких как интерактивная панель, информационный дисплей, цифровой аватар, модуль видеоаналитики, распознавания и синтеза речи, и используется для презентации достижений отечественной команды исследователей в Арктике. Цифровой аватар распознает собеседника, учитывает контекст, общается при помощи визуального контакта на естественном языке.

Другой пример — аватар известного политика Владимира Жириновского. Цифровой образ распознает речь, генерирует ответ согласно логике мышления прототипа и говорит синтезированным голосом с интонациями, присущими Владимиру Вольфовичу. При создании цифрового аватара «Наносемантика» проанализировала 18 000 часов аудио- и видеозаписей, а также книги и печатные интервью — в общем более 90 Тб данных. Для обучения модели использовался датасет из 150 000 инструкций.

Цифровой помощник юриста Юстина на стенде Минюста на ПМЮФ-2024
Цифровой помощник юриста Юстина на стенде Минюста на ПМЮФ-2024

Цифровой помощник юриста Юстина распознает разговорную речь и может проконсультировать по юридическим вопросам. В ее базе знаний федеральные законы, НПА и полная информация с сайта Министерства. 3D-аватар в образе молодой деловой женщины обладает полной синхронизацией речи, эмоций, мимики и жестов.

Цифровой аватар Лили на стенде Минпромторга на ВЭФ-2024
Цифровой аватар Лили на стенде Минпромторга на ВЭФ-2024

Цифровой аватар Лили стала одной из интерактивных «изюминок» стенда Министерства промышленности и торговли РФ на ВЭФ-2024. Аватар приветствовала посетителей, свободно общалась на разные темы и приняла участие в дискуссионной сессии на площадке «Гостиная губернаторов» в рамках Восточного экономического форума 2024.

Программные комплексы для управления робототехникой на естественном языке

Повышение качества нейросетей и скорость их обучения открывают огромные перспективы для общения с роботами на естественном языке. Ранее взаимодействие с роботами было сложным и требовало точного ввода команд, но благодаря нейросетям процесс диалога меняется. Машины теперь могут воспринимать команды в свободной форме, распознавать речь, реагировать на эмоциональные оттенки и выполнять действия на основе голосовых команд. В совместном с МФТИ проекте платформа DialogOS обеспечивает архитектуру, которая включает голосовой интерфейс для распознавания и синтеза речи, а также взаимодействие с внешними системами через API. Эта гибкая и мощная платформа разрабатывается для создания программных комплексов управления роботами в промышленных и бытовых сферах.

Строим диалог: как создать коммуникативный ИИ и настроить его под свои задачи

Текстовые или голосовые роботы

Использование текстовых и голосовых роботов становится уже традиционным способом автоматизации взаимодействия с клиентами. Виртуальные консультанты от «Наносемантики» позволяют значительно оптимизировать обслуживание клиентов через различные каналы, снижая нагрузку на сотрудников и сокращая операционные затраты.

В Беларусбанк виртуальный консультант от «Наносемантики» обслуживает до 30 тыс. клиентов в месяц. Он распознает свыше 90% запросов пользователей, что на 25% снижает количество обращений к online-консультанту.

В одном крупном ритейлере косметики и парфюмерии виртуальный консультант от «Наносемантики» ежемесячно общается с 22 тыс. пользователей. Он консультирует их по ассортименту, ближайшим магазинам и дисконтным программам, при этом 83% клиентов за консультацией повторно обращаются к боту, а не оператору.

Будущее платформы DialogOS

«Наносемантика» имеет в своем портфеле 12 основных продуктов и успела реализовать более 180 проектов. Компания постоянно совершенствует DialogOS, делая работу с платформой ещё более гибкой и эффективной для различных сценариев использования.

Новые нейросетевые модули DialogOS
Новые нейросетевые модули DialogOS

Новые нейросетевые модули — оценка сентимента, опечаточник, кластеризация тем — дают возможность оценить, насколько запрос клиента является негативным или позитивным, идентифицировать слова с ошибками, а также собирать и классифицировать информацию по разговорам с учетом тем.

Кастомные отчеты позволяют пользователю самому выбирать критерии и условия для анализа, оперативно получать специфичные данные для глубокой аналитики
Кастомные отчеты позволяют пользователю самому выбирать критерии и условия для анализа, оперативно получать специфичные данные для глубокой аналитики

Недавно в DialogOS появилась возможность создания кастомных отчетов в дополнение к стандартным. Новый функционал позволяет собирать и анализировать данные, релевантные конкретному сценарию, создавая метки и обрабатывая информацию для глубокого анализа взаимодействий. Улучшения работы ассистентов упрощают предоставление релевантной информации без дополнительных вопросов. Возможность быстрого просмотра интересующих данных из диалога дает возможность размечать реплики пользователей для дополнительного обучения нейросетей.

Обновленный дизайн диалоговой платформы
Обновленный дизайн диалоговой платформы

Новый дизайн учитывает современные тенденции и передовой опыт, поэтому работа на платформе интуитивна и эффективна.

В ближайшем будущем «Наносемантика» планирует:

  • Развитие аналитики, что позволит клиентам глубже анализировать взаимодействие с пользователями и точнее отслеживать эффективность работы.
  • Обновление системного NER (Named Entity Recognition), чтобы добавить больше именованных сущностей, таких как даты, e-mail, адреса, денежные суммы и др. для улучшения качества обработки данных и точности работы ассистентов.
  • Улучшение каталога общих элементов для сбора библиотеки стандартных сценариев и элементов, что позволит быстро разрабатывать и запускать новых виртуальных ассистентов.
  • Интеграция с телефонией для создания голосовых ботов первой линии, которые смогут совершать обзвоны и обрабатывать звонки без участия оператора. Это откроет новые возможности для автоматизации в таких сферах, как клиентская поддержка и маркетинг.

Диалоговая платформа DialogOS играет значительную роль в развитии разговорного ИИ, предлагая гибкие и масштабируемые решения для бизнеса. Она помогает компаниям автоматизировать взаимодействие с клиентами, улучшать качество обслуживания и снижать затраты. Благодаря использованию современных нейросетевых технологий и модульной архитектуры, DialogOS адаптируется под любые задачи, делая общение с ИИ более естественным и эффективным.

Статья впервые опубликована на портале CNews (07.10.2024)

11
Начать дискуссию