«Робот Зеля»: нейронная сеть научилась разговаривать как реальный человек

Робот Зеля - чатбот, являющийся цифровым аватаром реального человека. Сервис для рекламных кампаний и автоматизации обслуживания клиентов в игровой форме.

Будущее уже наступило

Проблема рынка искусственного интеллекта

Сейчас об ИИ не пишет только ленивый. Доходит до того, что компании стали лепить "с искусственным интеллектом" в название своих продуктов, чтобы простой хайпануть. А задумывались ли вы над тем, почему 98% чатботов, которых вы видели на сайтах и в сервисах тупые? И это несмотря на то, что все они поголовно используют "искусственный интеллект, машинное обучение и нейронные сети".

Я открою вам секрет полишинеля: практически все чатботы, которых вы видите, все консультанты и даже те, что стоят в банках и звонят вам на телефон (типа Тинькова) используют готовые фразы при ответе на типовые вопросы - хотя и делают это голосами с интонацией. Все, что они умеют - это классифицировать вопрос пользователя и идти по заранее написанному скрипту. Шаг вправо, шаг влево - и бот уже не знает, что ответить, и отправляет вас к человеку. Конечно же, такой бот не понимает жаргона и не способен выражать эмоции.

Идея

Так и возникла идея Робота Зели. Мы сидели с командой и думали: если людей так бесят тупые боты, то почему они их терпят. Потому, что они все же решают их вопрос - но происходит это с болью. Как уменьшить эту боль, как подарить человеку радость общения с ботом, как сделать так, чтобы он разговаривал эмоционально? И мы пришли к выводу, что "а почему бы и нет" - и сделать топового бота нам поможет новая весна искусственного интеллекта, которая связана с бумом deep learning и достижениями OpenAi, Facebook research и Google. Так выбор пал на цифрового аватара - о таких вещах любят писать СМИ.

Итак, чтобы получить бесплатную рекламу, надо сделать ИИ аватара, но кого выбрать в качестве персонажа? Галкин, Трамп, Путин, Ургант, Пугачева, Гарик Харламов, Оксимирон, Бузова - всех их пришлось отсеять. У кого-то не хватало датасета в публичном доступе, кто-то слишком стихотворно выражается, кто-то немного устарел и уже не на хайпе, а кто-то откровенно бесит. Но события 2019го сами подсказали - выстрелил комик Зеленский. Как юморист смог сделать головокружительный скачек и победить на выборах мастодонтов от политики? На этот вопрос мало кто знает ответ. Кроме того, он еще и интересная личность - снимался в сериалах, выступал в КВН.

Экспериментальный проект

Вообще, этот проект - эксперимент. Мы понимаем, что неидеален, он может сам отвечать невпопад, тормозить, а его личность не очень подходит для публикации на ИТ ресурсе типа vc.ru. Да, и я это понимаю, и все же:

Знакомьтесь, Робот Зеля - это первый в России полностью цифровой аватар реального человека на искусственном интеллекте, который реалистично эмулирует личность Владимира Зеленского. Чатбот уникален тем, что, во-первых имитирует стиль речи и лексикон реального человека (вводные слова, типичные обороты и пр.), а во-вторых, он оперирует знаниями Зеленского.

Робот Зеля. Описание​ Виктор
Робот Зеля. Описание​ Виктор

Нейронная сеть научилась разговаривать как президент Зеленский

Мы сделали чатбота под названием “Робот Зеля”, который работает на базе нейронной сети, и она научилась разговаривать в стиле президента Зеленского.

Нам в GraphGrailAi удалось добиться существенного прогресса в задаче оцифровки личности человека - пусть и на программном уровне, с помощью популярной архитектуры нейросети transformer. Также наш бот полностью генеративный - то есть все реплики и ответы бота генерируются нейросетью, и нет ни одной “зашитой” готовой реплики в коде. При этом важно, что бот оперирует концептами, знаниями и словами. Некоторые сложные вопросы он еще не понимает, не умеет рассуждать, но мы уже делаем 2ю версию с блек-джеком и более крутой моделью.

Поговорить с Зелей можно на 2х языках: русская и английская версии.

Мы по-ньтоновски забрались на плечи гигантов и использовали последние state-of-the-art наработки компании OpenAi в сфере генеративных моделей - GPT и GPT2 разных размеров. Отдельным челенджем оказалось сделать качественный fine-tuning этих моделей и превратить модель в чатбот. Еще одной трудной задачей оказался сбор датасета - эта задача типичная для всех ИИ продуктов, но в нашем случае в открытом доступе в текстовом виде данных почти не было, и приходилось их добывать из видео-интервью и пресс-конференций (тут стало понятно, что Зеленский не Путин и он еще не успел наговорить на датасет).

На самом деле тема разработки заслуживает отдельной статьи - о том, как мы боролись с нехваткой память на GPU, ошибках в датасете, неверных тензорах и багами Pytorch.

На самом деле цифровые копии в виде чатботов как продукты появлялись и раньше, стоить вспомнить бота Digital_Gref, который вышел в 2016м году и отвечал на вопросы почти как Герман Греф и бота Рамзан Нейродыров. Однако качество реализации было довольно средним и связано это было с уровнем развития искусственного интеллекта как науки - еще не появились глубокие архитектуры, в ходу была т.н. char-rnn, основанная на статистике сочетаний символов. В частности Цифровой Греф хотя и отвечал связно, делал это максимально общими фразами, по-видимому заготовленными заранее. А авторы бота Рамзан Нейродыров в статье Медузе признались, что “большинство произведений робота приходится отбрасывать вручную, так как они получаются слишком бессмысленными”. А такой ручной отбор по сути равносилен ручному же написанию постов.И только недавно появилось нечто достойное - например, бот Zuckerbot отвечал как Марк Цукерберг.


Робот Зеля в цифрах и фактах

  • 1000 реальных реплик диалогов в датасете

  • 4 скилла: бот умеет отвечать на темы “Политические вопросы”, “Окончание конфликта на востоке”, “Проблема возврата Крыма”, “Вопросы о семье, работе и Квартале 95”

  • 7 интервью, 1 пресс-конференция, 15 видео-обращений в датасете

  • до 3х реплик истории разговора чатбот запоминает с помощью кастомных фишек для адаптации генеративной модели в чатбот

  • 2 суток обучения на топовых видеокартах, 50+ тестов по подбору лучших гиперпараметров и опций обучения на Pytorch

Рынок

Рынок чатботов в 2017м году составлял 864.9 млн долларов и по прогнозам аналитиков достигнет 3146.4 млн. долларов в 2023. Представьте себе, что вскоре мы увидим такие кейсы:

Фэшн бренды: рекомендуйте через бота модные и стильные вещи, так, как это делала Коко Шанель и Карл Лагерфельд.

Авто бренды: используйте в рекламе образ Генри Форда и его бота на сайте для заказа тест-драйва и продаж автомобилей.

Образовательный рынок: используйте бота-Эйнштейна, чтобы привлечь ребенка к изучению точных наук, бот ответит на вопросы и предложит прочитать книги.

Детские товары: дружелюбный Мишка-бот расскажет сказку и отфильтрует неуместные вопросы в голосовом помощнике, включая мат и запрещенные темы

Что не умеет Зеля

В процессе бета-теста мы выяснили, какие вопросы задают пользователи боту и обнаружили, что часто ему задают вопросы, на которые он и не должен уметь отвечать.

Итак, наши выводы:

  • Мы не делали аналог Алисы. Люди привыкли к Алисе-Марусе, то есть к болталкам общего назначения. И поэтому они похожие же вопросы задают и нашему Аватару. Поэтому бот не ответит на “какая погода в Москве?” или “из чего сделана резина”.
  • Мы не делали вопросно-ответную систему на базе Википедии.
  • Мы не делали бота-матершинника или бота, рассказывающего анекдоты из интернета.

Робот Зеля - это ЛИЧНОСТЬ, и задавать ему надо те вопросы, на которые ответ знает сам прообраз Аватара. Представьте, что он приехал к вам в город и идет по улице, а вы оказались близко к его охране и можете что-то спросить из актуальных тем в новостях или выкрикнуть, зная, что он до вас все равно не достанет.

Демо: как бот ведет разговор

На vc.ru лучше не постить политику, но в нашем случае мы не можем обойтись без небольшой демонстрации разговора. Тем более, если вспомнить, как все сми перепечатывали дипфейки с Трампом и Путиным и даже не гнушались порно-дипфейки обсуждать.

​Демо разговора с аватаром Зеленского<br /> GraphGrailAi
​Демо разговора с аватаром Зеленского
GraphGrailAi

Хотите попробовать вопросы пожоще - добро пожаловать: русская и английская версии.

Если вы дочитали до конца, вам наверное интересно - а почему Зеленский? - Он на хайпе.

Применение

Отрасль под названием controllable text generation (часть большого NLG) развивается семимильными шагами. Мы являемся экспертами в ИИ с опытом более 5ти лет в разработке продуктов на NLU. Потенциально, такой продукт можно успешно применять в рекламной индустрии, создавая аватары знаменитостей, использовать скиллы для роботов (типа Promobot) и даже оцифровывать реальных людей на основе их переписки в социальных сетях.

Мы будем рады выслушать ваши идеи и предложения по внедрению бота в бизнес. У нас есть несколько идей, хорошо стыкующихся с рынком - пишите, если бы вы хотели попробовать нечто новое.

11
6 комментариев

Зеля?!?!  Ну, что за имя!!!  Надо было взять имя „Борис“ или „Алеша“!  :-)  Это сейчас модно

Ответить

Этот чел Виктор Носко мошенник просто. Собрал деньги на ico (2млн долл)  под другой проект. Потом два или три года кормил завтраками всех пока всем не надоело а теперь якобы «разработал» бота))). Могу поспорить купил эту херню у хохлов по дешевке. 

Бот выдает рандомные бессвязные ответы если встречает фразу которой нет в базе)))  ИИ там нет от слова совсем. 
Сам Носко выдает себя за специалиста по ИИ и даже выучил (как этот бот) некоторые термины. 
PS клоун, иди делай то что обещал
PPS не ведитесь. Чел привык собирать бабло заранее на «проэктик» расписывая прекрасное далеко, а потом отдыхать. Этакий Мавроди от ИТ

Ответить

Ваша критика не по адресу)
Где там что я купил - пруфы в студию или извиняться придется.
Далее - этот бот и есть часть того продукта, который мы разрабатывали ранее - платформа ИИ. На ней смогут размещаться скиллы, стили (то есть обученные нейросети), которые потом могут встраиваться в другие продукты. Никакого противоречия здесь нет и изменения концепции тоже - максимум что было правильно отметить, это стратегия построения ИИ платформы - правильно строить ее снизу-вверх, то есть начинать с продуктов, которые будут демо того, как работает большая система, но на малом масштабе.

Вообще, советую почитать про Databricks, IBM Bluemix  и Watson, Manychat и другие экосистемы, которые строились снизу, начиная от конечных продуктов, а затем эти продукты встраивались в общую экосистему, когда была просчитана их экономика.

Теперь по качеству - а вы не слыхали, что в первых версиях трудно добиться лучшего качества. Меня самого не полностью устраивает качество - мы знаем о об этом и поправим конечно же. Хотя отчасти и юзеры общаются с ботом как с Алисой - это тоже мы поняли на бета-тесте и было им трудно объяснить, что концепция бота другая.

Ответить

Странно vc.ru сделал: опубликовал статью где-то через месяц после публикации 26го декабря 2019го, а до того не пропускал, а за это время у нас уже другая версия подросла...

Ответить

А какая друга версия? А то эта версия на мой вопрос просто молчит. И не 3-4 секунды, как там написано. А просто... Молчит...

Ответить

С такой надеждой ткнулся в ссыль русскую, а там.... 404. Когда читал рекламу, то подумал: вот, будет чем заняться в свободное время, и тут такой КРАХ! Большое человеческое спасибо за найеббаллово.

Ответить