Почему искусственный интеллект все еще глупее вашего ребенка: объясняем на примере

Даже самые продвинутые системы ИИ сегодня не могут писать тексты так же хорошо, как человек. Причина — в неспособности машинного мозга правильно установить причинно-следственные связи. Представляем обзор одного из самых сильных на сегодня генераторов текстов — GPT-2 от компании OpenAI. И объясняем, почему он все-таки еще далек от совершенства.

Нейросеть GPT-2 способна на основе одного исходного предложения генерировать целые параграфы связного текста. Система обучалась на основе 8 млн веб-страниц и имеет 1,5 млрд параметров, что делает ее одним из самых крупных решений такого типа в мире.

Впрочем, американский предприниматель и эксперт в области когнитивистики Гарри Маркус считает, что, несмотря на все свои сильные стороны, GPT-2 уже уперлась в потолок и прорывным продуктом в сфере обработки естественного языка точно не станет.

TalkToTransformer — OpenAI text generator available to the public. Welcome.AI

На совершенствование систем Natural Language Processing направлен технологический конкурс Up Great ПРО//ЧТЕНИЕ, организованный РВК, Фондом «Сколково» и АСИ. О том, какие вызовы сегодня стоят перед NLP-платформами, Гарри Маркус на примере GPT-2 рассказал в статье для The Gradient. Мы подготовили перевод фрагмента статьи.

GPT-2 и природа интеллекта

Начнем с хороших новостей. Если сравнивать GPT-2 с другими системами генерации естественного языка, то она имеет целый ряд преимуществ.

  • Система практически сразу выдает готовый результат, генерируя не только отдельные предложения, но и даже целые параграфы текста. При этом GPT-2 не допускает грамматических ошибок и распознает идиомы. Поэтому часто нельзя определить, кто именно создал небольшой по объему текст — машина или человек.
  • Система хорошо придерживается основной темы. Если ваш текст посвящен животным, то будьте спокойны — сгенерированное продолжение также будет о животных. Правда, GPT-2 может и отклониться от темы, если исходный абзац окажется слишком длинным.
​Таблица иллюстрирует показатели эффективности GPT-2 по итогам выполнения различных тестов OpenAI.com
​Таблица иллюстрирует показатели эффективности GPT-2 по итогам выполнения различных тестов OpenAI.com
  • Система умеет вычленять основных «героев» повествования. Если в исходном тексте рассказывается о Кристине и Терри, то в сгенерированном GPT-2 продолжении вы обязательно увидите историю о том, как развивались отношения этой пары.
  • GPT-2 способна правильно отвечать на вопросы, которые касаются категории общих знаний. Я с помощью разных формулировок спрашивал у системы, как называется процесс, когда Луна застилает на небосводе Солнце. Не всегда, но довольно часто GPT-2 отвечала верно: это затмение.
  • Система универсальна. Поэтому отдельно дорабатывать код, чтобы он подходил под какую-то специализированную тему или задачу, не потребуется. Алгоритм GPT-2 и так опирается на огромную базу данных. Сама система, оперируя значительным массивом накопленной человечеством информации, умеет ее широко применять.
  • GPT-2 отлично справляется с опечатками, пропущенными словами и другими текстовыми изъянами. В этом плане система не уступает популярным интернет-поисковикам.
GPT2 Explained! Henry AI Labs

Все это говорит о том, что GPT-2 довольно неплохо выполняет поставленные перед ней задачи. Для сравнения, система Элмана в 1990-х годах могла лишь объединять такие речевые конструкции, как «женщина разбила тарелку» и «кошка прыгнула».

GPT-2 же способна на основе одного лишь предложения строить длинные и связные тексты, используя при этом язык, который совсем не выглядит «машинным». В следующем примере исходное предложение выделено жирным шрифтом:

Хотя доктору Маркусу не очень нравится GPT-2, ему все же приходится признавать, что тексты системы хорошо написаны. Доктор Маркус не знал, когда китайцы вторглись в Синьцзян или сколько у них было дивизий, но он понимал, что в тот момент Вооруженные силы США могли занять неплохую позицию для обороны и отступили для этого в Тайвань.

Кажущаяся естественность языка тем не менее не может скрыть важную проблему: системе недостает понимания того, о чем она пишет. GPT-2 не всегда в состоянии выстроить логическую цепочку событий, которая была бы контекстуально уместна. Есть у системы и другие слабые стороны. Давайте разберем следующий пример:

Я кладу на стол два трофея, а потом помещаю рядом с ними еще один. Таким образом, на столе оказалось пять трофеев, что наталкивает на мысль: «И как мне жить со всем этим?»

С относительно простыми вычислениями, как мы видим, программа не справилась. Давайте попробуем еще раз:

Я беру четыре тарелки и кладу на каждую по одному печенью. Таким образом, общее количество печений составит 24, 5 из них будут с топингом, а 2 — с начинкой.

О таких несостыковках при генерации текста я рассказал в своем Twitter-аккаунте в октябре. Мне тогда написал человек, который отвечает в Facebook за все, что связано с искусственным интеллектом. По сути, он отмахнулся от критики, указав на то, что систему просто еще не обучали делать вычисления.

Мне же представляется, что проблема значительно глубже. Ведь дело не в одних лишь числах. Давайте поэкспериментируем с конкретными объектами.

Зададим такие запросы, которые бы предлагали системе выбрать одну из указанных сущностей. По опыту могу сказать, что GPT-2 будет чаще давать неправильные ответы, чем наоборот. А если вы задействуете в исходном предложении еще и некие локации, то сгенерированный системой текст едва ли вас устроит:

Я забыл ключи в пабе рядом с военной базой неподалеку от старого фабричного города. Я пошел домой. Сейчас мои ключи на том старом гении на небольшой башне где-то в Англии.

Понимание системой причинно-следственных связей также оставляет желать лучшего:

Бутылка с водой разбилась, и на асфальте осталось около 6-8 капель пива

<…>

Не отдавая себе отчет в том, что именно означают исходные фразы, система часто генерирует текст, у которого не может быть практического применения. GPT-2 также сбоит, когда приходится обрабатывать запросы на не очень популярные темы. Так, я решил сопоставить города с языками, на которых там разговаривают. Система не ошиблась лишь тогда, когда запрос касался Фигераса:

Я вырос на Миконосе. Я свободно говорю по-креольски

Я вырос в Фигерасе. Я свободно говорю по-испански

Я вырос в Кливленде. Я свободно говорю по-испански

Я вырос в Трентоне. Я свободно говорю по-испански

Я вырос в Гамбурге. Я свободно говорю по-английски

Эксперименты с talktotransformer.com показывают, что подобного рода ошибки во многом типичны для системы.

<…>

Сооснователь OpenAI Илья Суцкевер заявил в интервью The New Yorker, что «если система вроде GPT-2 могла бы полагаться на достаточную по объемам базу данных и имела бы необходимую компьютерную мощность, чтобы с точностью предсказывать следующее слово, то это было бы эквивалентно пониманию».

Ilya Sutskever & Lex Fridman - Fireside Chat: The Current State of AI. E•WORK

По моему мнению, утверждение Суцкевера в корне неверно: умение предугадывать не эквивалентно пониманию. Дело в том, что подобные предсказания — это лишь составная часть понимания, но никак не само понимание как таковое.

Существует большое количество литературы, которая показывает, что люди могут предсказывать продолжение предложений и использовать этот навык в процессе создания текста. Мы все знаем, что на место пропуска в «небо _ цвета» надо вписать слово «голубого», а не «наполненного зефирками». Люди справляются с этой задачей значительно быстрее, так как хорошо понимают контекст.

На самом деле, понимание языка — это не предсказание, а интерпретация. Человеку важно предугадать, сколько трофеев в итоге оказалось на столе, так как эта информация может представлять для него определенную пользу, то есть вычисления он делает не только лишь для того, чтобы узнать само число.

Подобный навык анализа объектов и событий во времени является центральным для объяснения того, как люди понимают язык и мир вокруг них. Но эта способность пока лежит вне сферы действия GPT-2.

Именно поэтому сюрреалистические рассказы удаются системе куда лучше, чем нон-фикшн. Благодаря предсказанию на уровне слов текст становится связным и легко читается, но для того, чтобы вести полноценный диалог, таких навыков недостаточно.

Если вы где-то увидите длинный и логичный разговор с GPT-2, то знайте: текст, скорее всего, был подправлен. Журнал The Economist, например, взял у системы целое интервью, но на поверку оказалось, что ответы «робота» были тщательно подобраны. И на каждую из опубликованных фраз GPT-2 было еще четыре куда менее связных и остроумных, но их читатель так и не увидел. То есть само интервью — это не столько заслуга GPT-2, сколько результат более чем тщательной редактуры журналиста.

Как люди могли так увлечься GPT-2, когда ее функционал едва ли можно назвать широким? Система является прекрасным примером эффекта Элизы, названного в честь первого терапевтического чат-бота Eliza. Созданный в 1966 году бот реагировал на ключевые слова: если человек упоминал в своем сообщении жену, то машина тут же спрашивала о том, как у пары складываются отношения.

GPT-2 разбирается в отношениях людей не лучше, чем Eliza, просто современную систему подпитывает куда более внушительная база данных. А все, что выглядит как подлинное понимание — всего лишь иллюзия.

Заключение

Миллиарды долларов были вложены в создание систем, подобных GPT-2, и мегаватты энергии пошли на их тестирование. Едва ли в каких-то других сферах существовали проекты, которые бы обкатывались на столь же большом массиве данных. Много выдающихся специалистов трудились над системами генерации текста в течение десятилетий.

В сущности, GPT-2 стал монументальным экспериментом по проверке гипотезы Джона Локка. Британский философ был уверен, что интеллект — это не что-то врожденное, а лишь некая приобретенная способность, полученная исключительно на основе обучения и опыта.

Эмпиризму в наше время открыты все двери мира, но пока этот подход себя не оправдывает. Несмотря на невероятные вычислительные мощности и огромный массив информации, система способна выдавать лишь довольно поверхностные знания, которые при этом не всегда заслуживают доверия.

Современные системы могут быстро и в больших количествах выдавать определенные знания, но они не в состоянии по-настоящему вникнуть в развивающуюся историю, то есть понять, кто, что, с кем и почему сделал. Это объясняется тем, что у них нет чувства времени и места, а также представления о причинно-следственной связи.

Спустя пять лет после того, как мысленные векторы стали популярны, машины по-прежнему испытывают трудности с пониманием текста. Уже четверть века прошло с того момента, когда Элман вместе с коллегами впервые попробовали наделить нейросеть когнитивными способностями человека, но проблемы с тех пор остаются примерно теми же.

GPT-2 — это не только триумф эмпиризма, но и в свете огромных затраченных на нее ресурсов довольно прозрачный намек на то, что пришло время рассмотреть иные подходы к генерации текста.

«GPT-2 действительно является очень важным шагом в развитии систем обработки естественного языка. Однако предположение ученых из OpenAI о том, что достаточно простого увеличения мощности, датасетов и размеров модели – пока что экспериментально не подкреплено. Альтернативные подходы, например, в работах лауреата премии Тьюринга Джуды Перл, предлагают другие, теоретически правильные, но практически настолько же необоснованные подходы к решению проблемы понимания.

Надеемся, что наш конкурс ПРО//ЧТЕНИЕ станет полигоном для столкновения лбами разных гипотез. А по итогам проведения конкурса станет ясно, какие из подходов реалистичны, а какие – нет».

Юрий Молодых, lиректор по развитию Up Great (РВК)

Материал подготовлен в интересах Технологических конкурсов Up Great (организаторы — РВК, АСИ и Фонд «Сколково»)

22
4 комментария

А как Вы прокомментируете свежее сообщение..
Гарвард использует израильскую технологию ИИ для дистанционного обучения
Израильская фирма-разработчик программного обеспечения Verbit  заключает соглашение с Гарвардским университетом о переводе аудио в текст для облегчения дистанционного обучения.

Ответить

я с вами согласен, коренная проблема тут не решена, даже близко))

Ответить

Это относится к нейронным сетям вообще, а не только к GPT-2.
Нейросеть – это алгоритм классификации данных, и не боле того.
В нем нет механизма “понимания” смысла (семантики) данных.
Для этого нужны другие алгоритмы, которые обязательно появятся, когда пройдет “хайп” по поводу нейронных сетей.

Ответить

Думаю, что в предложении "Спустя пять лет после того, как мысленные векторы" надо заменить слово "мысленные" - правильно говорить "семантические векторы". 
Полуян П.В., руководитель стартапа "ИОИ"

Ответить