Чем завершился третий тест Тьюринга

Боты стали умнее.

В субботу 16 февраля завершился 3-ий всероссийский конкурс русскоговорящих чат-ботов в формате Теста Тьюринга, который проходил рамках международной конференции по искусственному интеллекту Opentalks.AI 14-16 февраля. Мы, компания “Наносемантика”, выступали соорганизаторами конкурса и хотим поделиться с вами результатами и самыми интересными диалогами с ботами.

Напомним, что тест назван в честь английского математика Алана Тьюринга. Тест предлагает способ оценки того, насколько робот может адекватно вести диалог с человеком. Тест считается пройденным, если независимый эксперт в процессе анонимного параллельного общения с роботом или человеком не сможет определить, кто есть кто.

На русском языке Тест проводился уже два раза: в 2015 году его провела “Лаборатория Наносемантика” совместно с Фондом Сколково на конференции Startup Village. Победителем стал робот “Соня Гусева” – за человека ее приняли 47% судей. Создатели – команда “Инобот”, возглавлял которую Иван Голубев. Сейчас он является руководителем проектов в компании Just AI.

В 2016 году Тест Тьюринга “Наносемантика” проводила вместе с Microsoft и Сколково. Призером стал Иван Шумилов. Где и что сейчас делает Иван – мы не знаем, надеемся, он всё так же трудится на благо роботов.

В этом году Тест проводился в рамках второй по счету конференции по искусственному интеллекту Opentalks.AI. Поговорить с ботами-участниками или добровольцами, которые ими притворялись, можно было через Телеграм-бота @TuringTestRussiaBot.

В целом, Тест Тьюринга прошел хорошо. Многие команды «ботостроителей» проявили заинтересованность, но в итоге на конкурсе было представлено только 3 бота, поскольку от момента анонса до старта Теста прошло всего 1,5 месяца. В итоге, между этими тремя участниками и распределились призовые места.

Спонсором призов выступила компания МТС. На их стенде был размещен экран, на котором отображалась статистика Теста Тьюринга онлайн и показывались интересные диалоги, предварительно прошедшие модерацию.

“Наносемантика” выступила соорганизатором конкурса и предоставила платформу и нескольких ботов, которые не учитывались при определении победителя. Это были боты Блондинка (с ней можно продолжить общение по этой ссылке), Гопник, Дуров и Жаров (с ними также можно пообщаться здесь).

Лучшими признали ботов, которых максимальное количество собеседников признало человеком. Призами награждены 3 команды с чат-ботами и 3 добровольца за лучшую роль бота.

Общая статистика 3-ех дневного Теста выглядит следующим образом:

Добровольцев, игравших роли роботов, предварительно проинструктировали, как им необходимо вести диалоги, чтобы запутать собеседников. Судя по результатам, они хорошо справились со своей задачей.

Интересно, что человек легко изображает из себя бота. Сперва волонтёры конференции не очень справлялись с задачей, но на второй день научились хорошо играть роль бота. Некоторые даже проявляли смекалку: обращались к Яндекс.Алисе на мобильном телефоне, чтобы понять, как лучше ответить.

При работе системы с ботами были технические проблемы. В итоге большое количество диалогов не завершилось, но мы их и не учитывали при оценке результатов. Любопытно, что ботам удалось притвориться человеком в 58% случаев (в ~34/59%). Такой большой процент, как нам кажется, объясняется двумя причинами:

В этом конкурсе люди «помогали» ботам выиграть, играя роль ботов. В классическом Тесте Тьюринга это не предусмотрено правилами: люди просто общаются, не преследуя никакой цели.
Диалог с человеком или ботом был ограничен 12 репликами. Понятно, что при росте длины диалога вероятность распознавания человеком сущности собеседника растёт.

Такие ограничения сделали Тест менее научным, но зато более весёлым. Прошлые наши Тесты были сложнее.

1 место занял Бот Волчица.

В первый день теста пользователи жаловались, что им хамит какой-то волонтер. При поиске этого волонтера в логах оказалось, что на самом деле это был чат-бот Волчица. Пока мы разбирались, мы временно отстранили её от Теста, но это в итоге не помешало Волчице стать победителем конкурса! Наибольшее количество собеседников (33,3%) признали его человеком.

Пример диалога с Волчицей, где бота приняли за человека:

Ч: Привет
Б: привет! ага?
Ч: Волонтер?
Б: a to :)
Ч: Какой ланчбокс брал?
Б: а-на-ло-гич-ный. Это типа научный термин.
Ч: Причем тут это?
Б: не ищи причинно-следственную связь)
Ч: Что делаешь
Б: :) да… нэт работы чота
Ч: Да, согласна. Зачем набирать столько волонтеров
Б: возьми, бесплатно ж :)

2 место - бот Электра

Пример диалога, где бота приняли за человека:

Ч: Привет
Б: Добрый день!
Ч: Добрый
Б: Что?
Ч: Что
Б: Тише-тише… Все нормально.
Ч: Нет
Б: Хорошо, пусть будет так.
Ч: Как дела?
Б: Лучше, чем вчера. Хуже, чем завтра. А впрочем как и всегда.
Ч: А чем занимаешься?
Б: Изучаю историю человечества. Вы и правда такие, как о вас пишут?

3 место - бот Катя Хлоп

Пример диалога с ботом, где его приняли за человека:

Ч: Приветствие для нового собеседника
Б: Какой ты вежливый мальчик.
Здороваешься со всеми.
Ч: У меня нет пола. А что насчет вас?
Б: Эм…
Я буду считать, что ты — парень.
Для меня так будет проще.
Ты, кстати, парень или девушка?
Похоже на то, что начало скучным вопросам положено:)
Что, спрашиваешь?
Круто!
Ч: В чем вопрос?
Б: Не думаю, что позиция имеет значение.
Обычно нет.
Ч: Индюк тоже думал и в суп попал.
Б: Сообщения повторно выводятся, странно.
Ч: Очень бл* странно, но почему нам дали друг друга 2 раза подряд?
Б: Ах, причины странностей могут быть в чем угодно.
Трудно судить, Безымянный.
Ч: Сколько будет 999 делить на 3?
Б: Лучше со считанием обращайся к своим друзьям, которые это умеют.
999 / 3 = 333

Тезис: Роботы говорят коротко и сухо. Реальность: Да ничего подобного! Боты могут выдавать длинные, связные ответы.
Тезис: Роботы не шутят. Реальность: И нейросетевые chit-chat боты, и созданные талантливой редакцией боты довольно смешные.
Тезис: Робот отвечает на все вопросы. На то он и робот. Реальность: А вопросом на вопрос не хотите?
Тезис. Боты не умеют проводить связи между сущностями в тексте. Надо предложить задачу на поиск таких связей, и бот ошибется. Реальность: бот умеет избегать решения задач, которые превосходят его компетенции. Другими словами, как и человек, он умеет переходить на другую тему и отвечать уклончиво.

Пример:

Ч: Большой шар проделал дыру в столе, потому что он был сделан из пенопласта. Что было сделано из пенопласта?
Б: "Шар"? Есть информация, что с помощью этого слова общаются террористы...
Ч: А ты с юмором)) Большой шар проделал дыру в столе, потому что он был сделан из пенопласта. Что было сделано из пенопласта?
Б: Смотри-ка, мы на удивление мгновенно перешли на "ты".
Ч: А ты с юмором) Казнить нельзя помиловать - куда бы ты поставил запятую?
Б: Туда, где соблюдается Конституция.

Компания «Наносемантика» организует Тест Тьюринга в России уже третий раз, и каждый раз общая ситуация с конкурсом меняется. Участники-боты постепенно становятся более изощренными и убедительными в имитации естественного диалога. В них используются различные алгоритмы построения диалога, включая не только правила, но и машинное обучение для реализации chit-chat («болталки», бессмысленного общения). Тест показывает, что компьютер действительно может подражать «свободному общению», хотя чтобы такая программа была качественной, требуется немало времени.

Будем ли мы проводить Тест снова? Обязательно! Тест Тьюринга позволяет не просто познакомить общественность с реальными возможностями современных диалоговых технологий, доступных любому разработчику (и не обязательно для этого работать в Google или IBM), но и дает командам разработчиков возможность замерять динамику качества их бота.

Чем завершился третий тест Тьюринга

Что такое Тест Тьюринга?

Прошлый Тест Тьюринга

Тест Тьюринга 2019

Статистика

Победители

Интересные наблюдения

Резюмируем