Человек и компьютер: сможет ли искусственный интеллект «осознать прочитанное»

Спрос на технологии Natural Language Processing (NLP) возрастает во многих сферах: образование, финансы, государственный сектор, здравоохранение, телекоммуникации, ритейл, юридическая практика. Тренды и барьеры в развитии NLP обсудили эксперты онлайн-конференции «Нас слышат, видят, реагируют: куда движутся технологии?». Мы собрали самые интересные фрагменты выступлений спикеров.

Конференция приурочена к презентации нового Технологического конкурса Up Great ПРО//ЧТЕНИЕ, организованного РВК, Фондом «Сколково» и АСИ. Технический партнер конкурса — Центр компетенций НТИ по направлению «Искусственный интеллект» на базе МФТИ.

Иван Ямщиков, научный сотрудник Института Макса Планка, ИИ-евангелист компании ABBYY: Один из ярчайших философов науки XX века Карл Поппер выдвинул принцип: теория является научной, если существует методологическая возможность её опровержения путём постановки того или иного эксперимента. И сегодня в машинном обучении, особенно в работе с текстами, происходит примерно вот что: у нас есть сильные теоретические разработки, но эксперименты сходятся с ними не всегда.

У нас есть немало разных способов и метрик, чтобы оценить, насколько хороши наши модели ИИ. Но что именно происходит на самом деле в наших головах, когда мы обмениваемся звуками или текстами и коммуницируем, – настоящая загадка. Поэтому обучить ИИ общаться с человеком так, как это делаем мы сами, невероятно сложно.

Если говорить о технических особенностях работы ИИ с текстами, то мы знаем, что проблему может вызвать даже простая конструкция «Вася ел борщ, он был горячий». Кто был горячим, Вася или борщ? Человек догадывается из контекста. Компьютер – не всегда. В рамках конкурса ПРО//ЧТЕНИЕ участникам в некотором смысле предстоит прыгнуть выше головы, решив некоторые очень сложные задачи, связанные с анализом естественного языка.

Вот несколько примеров задач в области NLP, решение которых будет очень ценным для всей области машинного обучения.

Вопрос предсказуемости реального мира на основании вашей модели ИИ. Ваша модель может быть прекрасной в теории, но нерабочей на практике в реальном мире. Здесь ключевыми могут оказаться вопросы балансировки вашего датасета.

Вопрос понимания нарратива и сюжета. Современные модели ИИ очень плохо понимают, что это такое. Восстанавливать причинно-следственные связи сложно. Важно понимать, что нарратив – фундаментальная специфика человеческой психики. Машины сегодня плохо воспринимают и извлекают сюжеты.

Язык как средство социальной демаркации – ИИ должен понимать нюансы. Простой пример: как называют границу между Израилем и Палестиной в англоязычных медиа арабы и евреи. Для одних – это «ограждение безопасности». Для других – «стена апартеида». Люди используют язык как способ культурной, политической и общественной демаркации, усложняя задачу искусственному интеллекту многообразием точек зрения на одни и те же объекты, явления и ситуации.

Сложность применения теории информации. Любой текст со временем может менять свои состояния: рассказ может трансформироваться в мем, новость может оказаться фейком и так далее. ИИ должен «чувствовать» контекст.

Кирилл Левин, директор научно-исследовательского департамента группы компаний ЦРТ: Группа ЦРТ уже 30 лет создает, развивает и совершенствует технологии на основе ИИ и машинного обучения, которые позволяют обеспечить адекватное взаимодействие человека и машины. Благодаря такой экспертизе, сегодня мы имеем одни из лучших ASR и TTS – распознавание и синтез речи, а наши чат-боты и голосовые интеллектуальные помощники успешно применяются для оптимизации работы крупных банковских институтов, ретейла и телекома.

Расскажу о нашем опыте и наших методах в работе с NLP. Как достичь практической пользы от слабого Natural Language Understanding (NLU)? Например, у нас есть два способа действий, когда мы создаем NLU чат-бот, который способен давать ответы на вопросы из сферы технической поддержки, на типовые вопросы о товаре и так далее.

Первый способ – выстроить решающие правила, основанные на опыте того, как человек понимает контекст. Второй способ – построить автоматическую систему с использованием Machine Learning и различных нейронных сетей. В любом случае нам понадобится очень много данных. А если учесть, что одни и те же явления люди воспринимают по-разному, то на практике вы можете получить совершенно неприменимый в реальной жизни результат.

Сложно надеяться на создание в ближайшее время продукта, который по качеству анализа текста догонит живого человека. Поэтому необходимо по-другому отнестись к технологиям NLP. Не нужно стремиться доработать функции ИИ до уровня человека, тем более эксперта. Наша задача должна заключаться в том, чтобы создавать инструменты, способные помогать человеку и экономить его время. То есть система должна выдавать эксперту несколько релевантных подсказок с вариантами, один из которых он может выбрать.

Михаил Бурцев, заведующий лабораторией нейронных систем и глубокого обучения, МФТИ: Что произошло в сфере NLP за последние два года? Смещение координат. Если первая волна развития ИИ была связана с компьютерным зрением, то сегодня интерес повсеместно смещается в область задач обработки естественного языка.

Какие задачи решают NLP-разработки? Самая простая – классификация предложений. ИИ уже способен общаться с человеком и распознавать его намерения: забронировать столик, узнать прогноз погоды, послушать музыку и так далее. Вторая задача – разметка последовательностей. ИИ способен находить в тексте, например, нужные даты, названия организаций и иные заданные объекты. Третья задача – предсказание продолжения последовательности или генерация последовательности. К примеру, у нас есть фраза и мы хотим сгенерировать ответ на нее. Мы можем натренировать нашу модель, и она будет предсказывать варианты развития диалога. Это типовые задачи, из которых далее вырастают сложные проекты.

За последние два года подход к функциям NLP-решений существенно изменился. C появлением и распространением алгоритмов глубоких нейронных сетей ИИ стало легче обучать. Но и задачи становятся всё сложнее. Эволюция в этой области выглядит примерно так: от применения простых рекуррентных нейронных сетей до самого продвинутого на сегодня так называемого алгоритма Transformer – это гибрид Encoder – Attentionсо свёрточными нейронными сетями, которые позволяют нейросети выучить различные отношения между словами в предложении или тексте.

Какие задачи нужно решить для создания разговорного искусственного интеллекта? Необходимо добиться более глубокого понимания диалога, то есть отойти от решения лишь частных задач. Сегодня в мире активно ведутся исследования в таких направлениях, как генерация нескольких альтернативных гипотез, отбор и оценка этих гипотез. Эта базовая часть, связанная с пониманием языка, на данный момент относительно отработана уже созданными языковыми моделями. Но следующий шаг, после того как мы разберемся с четким пониманием текущего контекста, будет связан с перспективой, с пониманием более стратегического диалога, когда нам наверняка придется моделировать нашего собеседника, планировать диалог, составлять сценарии диалога на будущее.

Константин Кайсин, операционный директор технологических конкурсов Up Great, РВК: Есть большая вероятность, что следующий скачок развития ИИ в России и в мире будет связан с технологиями NLP – с возможностью человека и компьютера общаться друг с другом напрямую, взаимно обучаться и развиваться. Для этого необходимо, чтобы компьютер мог «говорить» на естественном человеческом языке, чтобы он мог на самом деле понимать, о чем повествуется в «живом» тексте. И достижение этого прорыва является основной целью конкурса ПРО//ЧТЕНИЕ.

Также целью конкурса является создание открытого бенчмарка для оценки технологий ИИ и анализа текста. Созданная нами система оценки позволит сравнивать качество работы различных решений и подстегнет конкуренцию и развитие таких решений. Система будет располагаться в открытом доступе.

Также мы хотим, чтобы разработки участников конкурса, ориентированные на долгосрочную перспективу, начали внедряться в России уже в ближайшее время, и будем активно этому содействовать. В первую очередь, от этого конкурса должна выиграть сфера образования. Мы создаем условия конкурса, максимально приближенные к реальным.

Юрий Молодых, директор по развитию технологических конкурсов Up Great, РВК: Модель ИИ, которая сможет победить в данном конкурсе, должна будет научиться выявлять и анонсировать ошибки в текстах на уровне преподавателя, имеющего на проверку текста объемом до 12 000 знаков не более 10 минут. Ограничение по времени для работы ИИ составит 30 секунд на один текст. На текущий момент никто в мире еще не показал таких результатов.

Технология, способная продемонстрировать такой уровень проверки «живого» текста, позволит использовать разработку и как систему поддержки решений преподавателя, и как отдельный тренажер для школьников и студентов.

В конкурсе будут использованы тексты, написанные в рамках обучения по следующим предметам: русский язык, литература, обществознание, история, английский язык. Соревнования будут организованы отдельно для текстов на русском и английском языке. Призовой фонд каждого конкурса составляет по 100 млн рублей. Мы также будем предлагать для участников различные программы поддержки.

Константин Воронцов, доктор физико-математических наук, заведующий лабораторией машинного интеллекта МФТИ: Лаборатория машинного интеллекта МФТИ понимает конкурсную задачу состязания ПРО//ЧТЕНИЕ так: создать ИИ для поиска смысловых ошибок в тексте. Для нас, как для технического партнера конкурса, важно было разобраться, что такое смысловые ошибки и как будут обучаться модели ИИ участников конкурса – необходима обширная база размеченных текстов (то есть текстов, проверенных преподавателями).

Каждый текст будет проверен несколькими преподавателями. Если окажется, что средняя точность алгоритмической разметки, которую составит модель ИИ хотя бы одной из команд-участниц конкурса, превышает среднюю точность экспертной разметки, это и станет преодолением технологического барьера и победой в испытании.

Подать заявку и получить подробную информацию о конкурсе ПРО//ЧТЕНИЕ можно по адресу: ai.upgreat.one