Почему искусственный интеллект все еще глупее вашего ребенка: объясняем на примере
Даже самые продвинутые системы ИИ сегодня не могут писать тексты так же хорошо, как человек. Причина — в неспособности машинного мозга правильно установить причинно-следственные связи. Представляем обзор одного из самых сильных на сегодня генераторов текстов — GPT-2 от компании OpenAI. И объясняем, почему он все-таки еще далек от совершенства.
Нейросеть GPT-2 способна на основе одного исходного предложения генерировать целые параграфы связного текста. Система обучалась на основе 8 млн веб-страниц и имеет 1,5 млрд параметров, что делает ее одним из самых крупных решений такого типа в мире.
Впрочем, американский предприниматель и эксперт в области когнитивистики Гарри Маркус считает, что, несмотря на все свои сильные стороны, GPT-2 уже уперлась в потолок и прорывным продуктом в сфере обработки естественного языка точно не станет.
На совершенствование систем Natural Language Processing направлен технологический конкурс Up Great ПРО//ЧТЕНИЕ, организованный РВК, Фондом «Сколково» и АСИ. О том, какие вызовы сегодня стоят перед NLP-платформами, Гарри Маркус на примере GPT-2 рассказал в статье для The Gradient. Мы подготовили перевод фрагмента статьи.
GPT-2 и природа интеллекта
Начнем с хороших новостей. Если сравнивать GPT-2 с другими системами генерации естественного языка, то она имеет целый ряд преимуществ.
- Система практически сразу выдает готовый результат, генерируя не только отдельные предложения, но и даже целые параграфы текста. При этом GPT-2 не допускает грамматических ошибок и распознает идиомы. Поэтому часто нельзя определить, кто именно создал небольшой по объему текст — машина или человек.
- Система хорошо придерживается основной темы. Если ваш текст посвящен животным, то будьте спокойны — сгенерированное продолжение также будет о животных. Правда, GPT-2 может и отклониться от темы, если исходный абзац окажется слишком длинным.
- Система умеет вычленять основных «героев» повествования. Если в исходном тексте рассказывается о Кристине и Терри, то в сгенерированном GPT-2 продолжении вы обязательно увидите историю о том, как развивались отношения этой пары.
- GPT-2 способна правильно отвечать на вопросы, которые касаются категории общих знаний. Я с помощью разных формулировок спрашивал у системы, как называется процесс, когда Луна застилает на небосводе Солнце. Не всегда, но довольно часто GPT-2 отвечала верно: это затмение.
- Система универсальна. Поэтому отдельно дорабатывать код, чтобы он подходил под какую-то специализированную тему или задачу, не потребуется. Алгоритм GPT-2 и так опирается на огромную базу данных. Сама система, оперируя значительным массивом накопленной человечеством информации, умеет ее широко применять.
- GPT-2 отлично справляется с опечатками, пропущенными словами и другими текстовыми изъянами. В этом плане система не уступает популярным интернет-поисковикам.
Все это говорит о том, что GPT-2 довольно неплохо выполняет поставленные перед ней задачи. Для сравнения, система Элмана в 1990-х годах могла лишь объединять такие речевые конструкции, как «женщина разбила тарелку» и «кошка прыгнула».
GPT-2 же способна на основе одного лишь предложения строить длинные и связные тексты, используя при этом язык, который совсем не выглядит «машинным». В следующем примере исходное предложение выделено жирным шрифтом:
Кажущаяся естественность языка тем не менее не может скрыть важную проблему: системе недостает понимания того, о чем она пишет. GPT-2 не всегда в состоянии выстроить логическую цепочку событий, которая была бы контекстуально уместна. Есть у системы и другие слабые стороны. Давайте разберем следующий пример:
С относительно простыми вычислениями, как мы видим, программа не справилась. Давайте попробуем еще раз:
О таких несостыковках при генерации текста я рассказал в своем Twitter-аккаунте в октябре. Мне тогда написал человек, который отвечает в Facebook за все, что связано с искусственным интеллектом. По сути, он отмахнулся от критики, указав на то, что систему просто еще не обучали делать вычисления.
Мне же представляется, что проблема значительно глубже. Ведь дело не в одних лишь числах. Давайте поэкспериментируем с конкретными объектами.
Зададим такие запросы, которые бы предлагали системе выбрать одну из указанных сущностей. По опыту могу сказать, что GPT-2 будет чаще давать неправильные ответы, чем наоборот. А если вы задействуете в исходном предложении еще и некие локации, то сгенерированный системой текст едва ли вас устроит:
Понимание системой причинно-следственных связей также оставляет желать лучшего:
<…>
Не отдавая себе отчет в том, что именно означают исходные фразы, система часто генерирует текст, у которого не может быть практического применения. GPT-2 также сбоит, когда приходится обрабатывать запросы на не очень популярные темы. Так, я решил сопоставить города с языками, на которых там разговаривают. Система не ошиблась лишь тогда, когда запрос касался Фигераса:
Эксперименты с talktotransformer.com показывают, что подобного рода ошибки во многом типичны для системы.
<…>
Сооснователь OpenAI Илья Суцкевер заявил в интервью The New Yorker, что «если система вроде GPT-2 могла бы полагаться на достаточную по объемам базу данных и имела бы необходимую компьютерную мощность, чтобы с точностью предсказывать следующее слово, то это было бы эквивалентно пониманию».
По моему мнению, утверждение Суцкевера в корне неверно: умение предугадывать не эквивалентно пониманию. Дело в том, что подобные предсказания — это лишь составная часть понимания, но никак не само понимание как таковое.
Существует большое количество литературы, которая показывает, что люди могут предсказывать продолжение предложений и использовать этот навык в процессе создания текста. Мы все знаем, что на место пропуска в «небо _ цвета» надо вписать слово «голубого», а не «наполненного зефирками». Люди справляются с этой задачей значительно быстрее, так как хорошо понимают контекст.
Именно поэтому сюрреалистические рассказы удаются системе куда лучше, чем нон-фикшн. Благодаря предсказанию на уровне слов текст становится связным и легко читается, но для того, чтобы вести полноценный диалог, таких навыков недостаточно.
Если вы где-то увидите длинный и логичный разговор с GPT-2, то знайте: текст, скорее всего, был подправлен. Журнал The Economist, например, взял у системы целое интервью, но на поверку оказалось, что ответы «робота» были тщательно подобраны. И на каждую из опубликованных фраз GPT-2 было еще четыре куда менее связных и остроумных, но их читатель так и не увидел. То есть само интервью — это не столько заслуга GPT-2, сколько результат более чем тщательной редактуры журналиста.
Как люди могли так увлечься GPT-2, когда ее функционал едва ли можно назвать широким? Система является прекрасным примером эффекта Элизы, названного в честь первого терапевтического чат-бота Eliza. Созданный в 1966 году бот реагировал на ключевые слова: если человек упоминал в своем сообщении жену, то машина тут же спрашивала о том, как у пары складываются отношения.
GPT-2 разбирается в отношениях людей не лучше, чем Eliza, просто современную систему подпитывает куда более внушительная база данных. А все, что выглядит как подлинное понимание — всего лишь иллюзия.
Заключение
Миллиарды долларов были вложены в создание систем, подобных GPT-2, и мегаватты энергии пошли на их тестирование. Едва ли в каких-то других сферах существовали проекты, которые бы обкатывались на столь же большом массиве данных. Много выдающихся специалистов трудились над системами генерации текста в течение десятилетий.
В сущности, GPT-2 стал монументальным экспериментом по проверке гипотезы Джона Локка. Британский философ был уверен, что интеллект — это не что-то врожденное, а лишь некая приобретенная способность, полученная исключительно на основе обучения и опыта.
Эмпиризму в наше время открыты все двери мира, но пока этот подход себя не оправдывает. Несмотря на невероятные вычислительные мощности и огромный массив информации, система способна выдавать лишь довольно поверхностные знания, которые при этом не всегда заслуживают доверия.
Спустя пять лет после того, как мысленные векторы стали популярны, машины по-прежнему испытывают трудности с пониманием текста. Уже четверть века прошло с того момента, когда Элман вместе с коллегами впервые попробовали наделить нейросеть когнитивными способностями человека, но проблемы с тех пор остаются примерно теми же.
GPT-2 — это не только триумф эмпиризма, но и в свете огромных затраченных на нее ресурсов довольно прозрачный намек на то, что пришло время рассмотреть иные подходы к генерации текста.
Материал подготовлен в интересах Технологических конкурсов Up Great (организаторы — РВК, АСИ и Фонд «Сколково»)
А как Вы прокомментируете свежее сообщение..
Гарвард использует израильскую технологию ИИ для дистанционного обучения
Израильская фирма-разработчик программного обеспечения Verbit заключает соглашение с Гарвардским университетом о переводе аудио в текст для облегчения дистанционного обучения.
я с вами согласен, коренная проблема тут не решена, даже близко))
Это относится к нейронным сетям вообще, а не только к GPT-2.
Нейросеть – это алгоритм классификации данных, и не боле того.
В нем нет механизма “понимания” смысла (семантики) данных.
Для этого нужны другие алгоритмы, которые обязательно появятся, когда пройдет “хайп” по поводу нейронных сетей.
Думаю, что в предложении "Спустя пять лет после того, как мысленные векторы" надо заменить слово "мысленные" - правильно говорить "семантические векторы".
Полуян П.В., руководитель стартапа "ИОИ"