Виртуальные ассистенты: как будет развиваться технология

Сегодня виртуальные ассистенты внедряются во многие сферы жизни, будь то личный помощник у вас в телефоне или бот в службе поддержки банков, мобильных операторов и тому подобное. Существование таких систем стало возможно с развитием очень важного и обширного направления в машинном обучении, которое называется обработкой естественных языков (NLP).

Среди основных задач, решаемых многими виртуальными ассистентами, можно выделить следующие:

Распознавание речи. Это задача перевода звуковой информации в текстовую. Она применяется в таких ассистентах, которые способны взаимодействовать с человеком посредством голоса. Например, Google-ассистент, Алиса от Яндекса, Олег от Тинькофф и тому подобные.
Анализ текста. По большей части это вопросно-ответные системы.
Синтез речи. Эта задача противоположна задаче распознавания речи и также применяется в ассистентах, которые взаимодействуют с человеком посредством голоса.

Одна из главных задач, которую сейчас пытаются решить исследователи в данной сфере, это разработка ассистента, не ограниченного узкой областью, для которой его разрабатывали. Такой ассистент должен уметь общаться как обычный человек, не ограничиваясь заранее подготовленным словарем или набором предложений.

В случае когда общение с ассистентом происходит голосом, проблема возникает на моменте понимания речи. Все подходы к распознаванию речи включают в себя решение двух основных задач:

Распознавание элементарных частей, называемых токенами. Во многих подходах в качестве токенов используются символы.
Составление из токенов осмысленного предложения. Здесь в качестве токенов могут использоваться те элементарные части, которые распознавались из речи; они могут также складываться в другие типы токенов. Для составления осмысленного текста применяется лингвистическая информация, выделяемая из большого набора тестов с помощью специальных моделей, называемых лингвистическими моделями (LM). Такие модели могут быть как отдельной частью системы, так и частью модели для распознавания речи.

Основная проблема здесь кроется в момент составления осмысленных предложений. При создании LM необходимо решить, что использовать в качестве токенов. Во многих узконаправленных ассистентах в качестве токенов для LM используют слова. Это помогает получить заведомо хороший результат в рамках конкретной специфики, не имея при этом очень большого набора текстовых данных. Однако из-за того, что LM выделяет лингвистическую информацию, связывающую конкретные слова, такой подход ограничивается предоставленным словарем и не способен формировать новые слова.

Исходя из вышесказанного, можно предположить, что тогда лучше применять символы в качестве токенов. Однако и тут есть свои проблемы: хотя подобные системы уже и не будут ограничены словарем, но чтобы получить приемлемое качество, необходимо иметь огромные наборы данных, которых не найти нигде в открытом доступе, а стоимость таких наборов будет очень велика даже для относительно больших компаний. Кроме того, такие системы могут довольно часто ошибаться и составлять несуществующие слова — из-за того, что сделаны слишком гибкими.

Чтобы получить достаточную универсальность в составлении осмысленных предложений, при этом не жертвуя качеством и необходимым объемом данных, исследователи придумали подходы, которые заключаются в разбиении слов на подслова. Одним из наиболее часто используемых и простых в реализации подходов является алгоритм Byte Pair Encoding (BPE). Этот алгоритм разбивает предложения в обучающем наборе данных на самые часто встречаемые токены и по своей идее похож на алгоритм Хафмана. Эти подходы позволяют уйти от проблемы ограничения словаря, требуют меньшие объемы данных для выделения необходимых зависимостей, нежели использование символов, а также менее подвержены проблеме формирования несуществующих слов, так как оперируют более встречающимися комбинациями символов.

С момента появления человеческой речи и появлением информации, которой оперируют люди, очень быстро усложнялись причинно-следственные связи в нашей речи. В наше время даже люди не всегда способны правильно понять контекст и особенно извлечь смысловую нагрузку из текста. Диалог между людьми может сильно зависеть от того, с кем мы обсуждаем, казалось бы, максимально простую тему.

Для решения разговорного искусственного интеллекта необходимо добиться более глубокого понимания диалога, а это значит, что нужно отойти от решения частных задач, которыми занимаются вопросно-ответные системы. Сейчас активно ведутся исследования в таких направлениях, как генерация нескольких альтернативных гипотез, отбор и оценка этих гипотез. Эта базовая часть, связанная с пониманием языка, на данный момент относительно отработана уже созданными языковыми моделями. Но следующий шаг, после того как мы разберемся с четким пониманием текущего контекста, будет связан с перспективой, с пониманием более стратегического диалога, когда нам наверняка придется моделировать нашего собеседника, планировать диалог, составлять сценарии диалога на будущее.

На сегодняшний день лучшим вариантом для вопросно-ответных систем являются системы, нацеленные на конкретный домен. Даже учитывая наличие огромных наборов данных, которыми владеют такие компании, как Яндекс и Гугл, системы наподобие Яндекс.Алисы ограничены определенным доменом.

Однако благодаря огромному набору данных, у них есть возможность разработки такого ассистента, который, на первый взгляд, будет способен поддерживать близкую к человеческой беседу. Но стоит подольше пообщаться с такими системами — и становиться понятно, что в ситуациях, которым их не обучали и не закладывали в них, они будут стараться давать общие ответы и в некоторых случаях даже говорить, что не понимают собеседника.

Автор: Александр Болтачев, ML-разработчик Globus IT

Виртуальные ассистенты: как будет развиваться технология

Возможность создания универсального ассистента

Проблемы, возникающие при анализе текста