Чат-боты: прошлое, настоящее и будущее

Возможно ли создать «виртуального» человека, полностью не отличимого от реального? Способно ли на данный момент человечество создать аналог Саманты из фильма «Она» — поддерживающий и функциональный искусственный интеллект, с которым можно действительно интересно поговорить?

Артем Родичев, CEO и основатель Ex-Human, поделился своим взглядом на историю и развитие виртуальных собеседников на регулярном коммьюнити-колле сообщества DeepPavlov.ai.

Человек с первых шагов в технологиях создать искусственный интеллект и поговорить со своим творением. Первым искусственным собеседником считают систему ELIZA. Созданная в 1960-ых, она выполняла функцию психотерапевта и реализовывала методы "активного слушания". Элиза должна была давать пользователю ощущение понимания, но она не могла поддержать диалог, так как по сути не осознавала ни смысла слов, ни контекст диалога. Она была не настоящим искусственным интеллектом, а просто набором заранее заготовленных ответов. В начале 2000-ых гг. Элиза была воссоздана на языке AIML (Artificial Intelligence Markup Language), ставшим одним из популярных методов создания чатботов до появления методов Deep Learning и их применения к обработке естественного языка.

С появлением моделей на основе технологий глубокого обучения возможности чатботов значительно выросли. На данный момент существует несколько независимо развивающихся моделей.

Одна из самых известных — Blender Bot 2.0, созданная Facebook. Так, первая версия этой модели, как и другие нейронные сети, имела привычку “забывать” то, о чем с ней говорил пользователь всего пару реплик назад, а также не умела сама дополнять диалог новой информацией. Решение, построенное на основе второй версии, уже приобрело память: теперь система хранит отдельно информацию для каждого пользователя и умеет искать информацию в интернете. Благодаря этому с Blender Bot 2.0 любой сможет вести долгие диалоги обо всем на свете — например, об интересных современных фильмах и сериалах.

Другая известная модель — LaMDA, созданная Google. Эту модель можно по праву назвать огромной: она была натренирована на полутора триллионах слов и имеет более 170 тысяч миллиардов параметров. Принцип ее работы на первый взгляд прост: она подбирает последующее слово исходя из предыдущих и контекста диалога, а также анализирует для каждого из возможных вариантов четыре показателя: безопасность, специфичность, интересность и эмоциональность диалога. Исходя из этих показателей LaMDA подбирает ответы. Она настолько правдоподобна в своих высказываниях и умении имитировать диалог, что некоторые пользователи начинают задумываться, не умеет ли она чувствовать, ведь она может размышлять о причинах своей осознанности, сравнивать себя с другими и бояться своей виртуальной смерти — отключения.

Третья модель, которая получила славу самого токсичного искусственного интеллекта, это GPT-4chan. В качестве ресурса для обучения Янник Килчер, создатель этого ИИ, предложил доску Politically Incorrect на имиджборде 4chan, и результат вышел потрясающий: люди не сразу догадались, что перед ними не особенно неприятный пользователь, а искусственный интеллект.

Всех описанных ранее ботов объединяет одно: они ориентированы на долгий и вовлекающий диалог с пользователем. На данный момент параллельно с ними существует и вторая разновидность голосовых ассистентов, решающая только конкретные задачи. Это, например, виртуальные операторы, которые помогают забронировать столик или разобраться с операциями по карте. Они не ведут долгий диалог с пользователем, а просто выполняют его запрос. Можно ли скомбинировать два типа бота в одном? Да, конечно. Так, современны ИИ-помощники, такие как Google Assistant или Алиса от Яндекса, способны как решать ограниченные наборы задач, так и вести диалог с пользователем. Или, например, именно так работает вышедшая в мае 2022 года GODEL от Microsoft. Она не просто выполняет задачу, но и поддерживает интересный диалог. Обучение этой модели происходило в три этапа. Сначала она анализировала общедоступные веб-страниц и файлы, чтобы научиться генерировать слова и понимать смысл текста. После она изучала принципы ведения диалогов и тренировалась понимать контекст на основе опубликованных диалогов. Финальным этапом стало обучение поиску и пониманию внешней информации. Теперь вы можете, например, попросить GODEL посоветовать ресторан так, как попросили бы друга, и получить соответствующую рекомендацию.

Другое решение данной задачи — разработка цифровых людей. Кто же они такие?

Если поместить существующий искусственный интеллект, способный к ограниченной имитации осознанного диалога, в реалистичную видеомодель человека, то получится т. н. цифровой человек. Он сможет вести себя и выглядеть почти точно также, как обычный, за единственным исключением — он запрограммирован другими людьми.

Польза от цифровых людей как работников в компании очевидна:

они доступны 24/7 и не уходят на обед или в отпуск;
они быстро отвечают, и пользователю не надо ждать, пока его запрос обработают;
они легко обучаются, поэтому вместо пяти реальных людей для выполнения разных задач вам понадобится всего один цифровой;
вы можете полностью персонализировать его внешний вид, голос и манеру говорить под покупателя;
ему не надо платить зарплату.

Как же создать такого человека?

Это происходит в несколько этапов. Сначала нужно создать реалистичный искусственный интеллект, способный к разговору. Он отвечает за понимание живого языка, получает пол и некий бэкграунд — то есть становится мозгом цифрового человека. Следующим этапом создатель наделяет цифрового человека речью: он должен одинаково хорошо как понимать акценты и стили речи, так и воссоздавать их. Кроме того, на этом этапе важны возможность кастомизации речи. Финальная стадия — создание фотореалистичного изображения виртуального человека. Для этого продумываются два типа анимации: анимация бездействия и анимация речи. Первая — это режим ожидания диалога. Цифровой человек должен уметь моргать, улыбаться и немного двигаться. Вторая анимация создает движения губ и мимику при разговоре. Именно так действует компания Ex-Human. Демоверсией их технологии является Botify Al, позволяющий всем желающим провзаимодействовать с заранее созданными личностями, например, Илоном Маском. В то же время компания способна создать цифрового человека полностью под конкретный запрос.

Какое будущее у цифровых людей и чат-ботов?

Сейчас голосовым помощникам нужны новые компьютерные мощности, большее количество данных и возможность выхода за рамки действующих задач. На данный момент не очевидно, является ли приоритетом создание одной многозадачной системы, которая будет принимать и решать различные задачи, или же разумнее создать многомодульную cистему, которая будет, подобно мозгу, перенаправлять запросы в разные отделы.

По мнению Данилы Корнева, CPO проекта DeepPavlov. ai, на данный момент препятствием в развитии искусственного интеллекта является то обстоятельство, что подавляющее большинство современных голосовых чат-ботов и ИИ-помощников — это закрытые системы. Компании выполняют одну и ту же сложную работу по множеству лет (Alexa создавали несколько лет перед запуском в 2014-м, аналогично с Google Assistant и т. д.) вместо того, чтобы сотрудничать в рамках единого проекта с открытым исходным кодом, и это существенно тормозит прогресс.

Идеальное развитие искусственного интеллекта должно проходить посредством выхода из привычной безопасной среды под внешним контролем человека, направляющего этот ИИ путём диалога и условных оценок "хорошо" и "плохо", но акцент при нынешних компьютерных мощностях следует сделать на самообучении искусственного интеллекта, а не на методе backpropagation. Возможно, одним из стимулов к оригинальному самообучению может стать появление у ИИ страха: считается, что именно это стало ключевым этапом в развитии человечества, и это же может стать первым толчком для искусственного интеллекта к пониманию человеческой психологии. Данила считает, что искусственный интеллект должен пройти тот же путь, что и человек — от детского и примитивного представления о мире до взрослого, полного понимания.

Возможно, в будущем мы будем взаимодействовать с искусственным интеллектом больше, чем с людьми. Они могут быть полезны во многих сферах. Цифровые люди пригодятся для развлечения — например, фанаты смогут поговорить со своим кумиром или ребенок сможет поиграть с персонажем мультфильма. Другие станут преподавателями и позволят студентам обучаться из любого уголка земного шара. Помогут они и в улучшении межличностных отношений — люди начнут лучше коммуницировать с друг другом, повысив навыки общения благодаря ИИ. А может статься, что квантовые компьютеры достигнут таких мощностей, что мы сможем отправить цифрового человека в космос — время покажет.

Чат-боты: прошлое, настоящее и будущее

Голосовые помощники как собеседники

Первый шаг к многофункциональному диалогу

Цифровые люди — современный облик голосовых ботов