Почему компьютер может писать как человек, но при этом не понимать написанного

Автор MIT Technology Review Карен Хао — о том, как работает искусственный интеллект OpenAI.

14 февраля некоммерческая исследовательская компания OpenAI выпустила новую языковую модель, способную генерировать убедительные отрывки текста. Настолько убедительные, что создатели решили не выкладывать полный код в открытый доступ: он мог бы стать инструментом для создания ложных новостей.

Несмотря на впечатляющие результаты, методы OpenAI не новы, и в первую очередь прорыв был обеспечен огромным количеством обучающих данных.

Тексты, созданные программой, вполне могут сойти за написанное человеком. Однако эту способность не стоит путать с подлинным пониманием языка — конечной целью учёных, занимающихся обработкой естественных языков. (В компьютерном зрении происходит то же самое — алгоритмы умеют синтезировать реалистичные изображения, совершенно не понимая зрительных образов.)

Сегодня развитие обработки естественных языков обеспечивают четыре философских подхода; начнём с того, который приняли исследователи OpenAI.

Философское обоснование: значение слова определяется его употреблением. Так, значения слов «кошка» и «собака» родственны, так как они употребляются схожим образом. Вы можете покормить и приласкать и кошку, и собаку. А вот апельсин, например, покормить и приласкать не получится.

На практике: алгоритмы на основе методов дистрибутивной семантики продвинули обработку естественных языков. Здесь исследователи полагаются на машинное обучение — отыскивают паттерны, подсчитывая, насколько часто и близко слова используются относительно друг друга.

На основе этих паттернов получающиеся в результате модели конструируют предложения или абзацы; так работают автозаполнение и другие предиктивные текстовые системы. Некоторые разработчики экспериментируют с распределением случайных последовательностей символов, а не слов, чтобы сделать модели более восприимчивыми к акронимам, пунктуации, сленгу — всему тому, чего нет в словаре. А также к языкам, где граница между словами нечёткая.

Преимущества: подобные алгоритмы очень гибкие и легко масштабируются, потому что они применимы в любом контексте и учатся на неразмеченных данных.

Недостатки: получаемые модели не понимают создаваемых предложений. По большому счёту они пишут, опираясь на словесные ассоциации.

Философское обоснование: язык используется для описания действий и явлений, поэтому предложения делятся на субъекты, глаголы и второстепенные члены.

На практике: алгоритмы, в основе которых лежит фреймовая семантика, в анализе предложений полагаются на набор правил или большое количество размеченных данных. Поэтому они особо хороши для интерпретации простых команд и для чат-ботов, голосовых ассистентов.

Если вы, например, попросите Alexa: «Найди на завтра четырёхзвёздочный ресторан». Такой алгоритм поймёт требование, разбив его на категории: действие — «найди», что — «четырёхзвёздочный ресторан» и когда — «завтра».

Преимущества: в отличие от алгоритмов на основе дистрибутивной семантики, не понимающих тексты, на которых они учатся, алгоритмы фреймовой семантики различают информацию в предложении.

Недостатки: такие алгоритмы справляются с очень простыми предложениями, не фиксируя тонкости; они не очень подвижные, поскольку требуют серьёзного контекстного обучения.

Почему компьютер может писать как человек, но при этом не понимать написанного

Философское обоснование: язык нужен для передачи знаний.

На практике: в основе модельно-теоретической семантики лежит старая идея — любое знание можно закодировать (смоделировать) последовательностью логических правил.

Если известно, что птицы умеют летать, а орёл — птица, можно заключить: орёл умеет летать. Такой подход всё же вышел из моды, ведь на каждое правило приходится слишком много исключений (пингвины — птицы, но не летают).

Тем не менее модельно-теоретические алгоритмы полезны для извлечения информации из моделей представления знаний вроде баз данных. Как и алгоритмы фреймовой семантики, они анализируют предложения, разбивая их на части, но эти части мыслятся как логические правила, кодирующие сообщение.

Модельно-теоретический алгоритм разобьёт вопрос «Город с самым большим населением в Европе?» на серию замкнутых запросов: «все города мира?», «какие из них в Европе?», «какое у них население?», «в каком городе население самое большое?». И после этого даст ответ.

Преимущества: подобные алгоритмы позволяют машине отвечать на сложные вопросы.

Недостатки: они требуют модели представления знаний, на создание которых уходит много времени; контекстуальная сфера этих алгоритмов ограничена.

Философское обоснование: язык получает значение из опыта. Люди создали язык для достижения определённых целей, поэтому его следует понимать в рамках целеположенного мира.

На практике: этот подход самый новый и многообещающий. В обучении языку алгоритм пытается подражать человеку: начинает машина с чистого листа и учится связывать слово и значение в диалоге.

Простой пример. Обучая компьютер передвижению предметов в виртуальном пространстве, вы даёте ему команду «передвинь красный куб влево», а затем показываете, что имеете в виду. Со временем компьютер научится понимать и исполнять команды без помощи.

Преимущества: в теории «опытные» алгоритмы очень податливы и наиболее близко подбираются к настоящему пониманию языка.

Недостатки: обучение занимает много времени; не все слова и словосочетания иллюстрируются так же легко, как «передвинь красный куб».

В долгосрочной перспективе у каждого подхода есть ограничения.

«Вероятно, существует качественный разрыв между пониманием языка, восприятием мира человеком и современными моделями», — отмечает профессор информатики в Стэнфорде Перси Лян. Преодоление этого разрыва потребует нового мышления, добавляет он, и гораздо больше времени.

#искусственныйинтеллект #машинноеобучение