Обзор развития технологий искусственного интеллекта в 2018 году

Победа ИИ над игроками в Dota, принципиально новые архитектуры нейронных сетей, универсальные системы понимания естественного языка — насколько ближе мы стали к общему искусственному интеллекту.

В 2017-2018 годах искусственный интеллект (ИИ) из технологии превратился в индустрию. Отдельные кейсы внедрения алгоритмов машинного обучения в ключевых индустриях слились в непрерывные программы интеграции ИИ в цифровые продукты и технологические процессы.

В индустрии можно выделить несколько технологических направлений — рекомендательные системы с глубоким обучением, технологии понимания естественного языка, компьютерное зрение, предиктивные модели и обучение с подкреплением.

На рынке ИИ существуют несколько типов компаний.

Научно-исследовательские лаборатории, разрабатывающие алгоритмы.
Продуктовые компании, часто это стартапы, мечтающие об экспоненциальном росте их продукта благодаря интеграции ИИ.
Консалтинги, объясняющие бизнесу, как интегрировать новые технологии, а также предлагающие свои b2b-решения.

Лидеры R&D-активности в индустрии — внутренние лаборатории технологических гигантов (Google, Amazon, Microsoft, Netflix) и несколько некоммерческих организаций (OpenAI, Vector Institute), при этом благодаря разнообразию задач и бурному росту рынка есть пространство и для небольших научно-исследовательских коллективов.

Растёт количество новых компаний, рынок очень динамичен. Количество активных ИИ-стартапов в США в 2018 году выросло в два раза относительно 2015 года, их финансирование венчурным капиталом удвоилось за последние два года.

Количество вакансий с требованиями навыков разработки глубоких нейронных сетей с 2015 года по 2017 год выросло в 35 раз. В 2017-2018 годах появились национальные государственные стратегии в сфере ИИ.

В Китае огромный объём государственных инвестиций в R&D, в США больше инвестируют корпорации. Наиболее весомый вклад в ИИ-исследования по-прежнему вносят ученые из США — их индекс цитируемости на 83% выше, чем среднемировой уровень.

Технологии понимания естественного языка давно решают узкие задачи: поисковые системы обрабатывают запросы с учётом семантики языка, «Google Переводчик» неплохо отражает общий смысл фразы на другом языке, технологии распознавания речи делают всё меньше и меньше ошибок, а некоторые специфические архитектуры нейтронных сетей позволяют извлекать нужную информацию из произвольных текстов.

Однако задача поддержания непринужденной беседы по-прежнему не решена, Siri всё ещё не похожа на разумного собеседника.

Основной вызов в NLP (Natural Language Processing, обработка естественного языка) сейчас — создание универсальных языковых моделей и архитектур, которые будут решать различные задачи работы с текстом с помощью одной системы.

Проще говоря, создание системы, которая будет «понимать» текстовую информацию и сможет взаимодействовать с вами так, как это делал бы человек, прочитавший текст и обладающий некоторым багажом знаний.

В 2018 году для решения этой задачи коллаборацией учёных из Нью-Йоркского университета, университета штата Вашингтон и DeepMind был разработан новый бенчмарк GLUE — General Language Understanding Evaluation (общая оценка понимания естественного языка).

GLUE оценивает системы понимания естественного языка по результатам выполнения заданий: ответов на вопросы, анализа тональности текста и продолжения повествования. Для решения некоторых из этих задач требовались алгоритмы переноса знаний (transfer learning), актуальные, когда отсутствует достаточная обучающая выборка.

В бенчмарк также включены вопросы из Winograd schema challenge, более совершенного аналога теста Тьюринга на наличие у машины «интеллекта». GLUE был опубликован в мае 2018 года, за полгода его существования результаты лучших моделей улучшились с 68% верных ответов до 80% (результат последней модели Google BERT), при этом средний результат человека составляет 90%.

Лингвистические модели прошлых лет (word2vec) были построены на статистике и учитывали совместную встречаемость слов в огромном корпусе текстов. Современные модели (ULMfit, ELMo) используют технологию обучения без учителя.

Например, создание вложений (векторизация слов) с помощью рекуррентных нейронных сетей, обученных на больших корпусах текстов, позволяет сформировать в модели некоторое первичное общее представление о семантике языка, прежде чем перейти к решению конкретной задачи.

Компьютерное зрение — область, в которой применение глубоких нейронных сетей многократно повысило эффективность решения прикладных задач. Определение объектов на изображениях и распознавание лиц уже стали мейнстримом.

Конволюционные (свёрточные) нейронные сети — самая актуальная сегодня архитектура нейронных сетей для работы с изображениями — позволяют в некотором смысле усреднять комбинации пикселей, не теряя информации об их относительном расположении. Модель «запоминает» силуэт объекта и может распознать подобный объект на другом изображении.

В 2018 году закрылось самое популярное соревнование алгоритмов компьютерного зрения ImageNet, так как качество распознавания и нахождения объектов на изображениях превысило человеческие возможности, приблизившись к 98%.

Модели компьютерного зрения обычно состоят из многих слоёв конволюционных нейронных сетей и требуют большого времени для качественного обучения. За последние полтора года среднее время обучения моделей классификаторов изображений (базовая задача компьютерного зрения) снизилось в 15 раз — это говорит о развитии как алгоритмов, так и вычислительных мощностей.

Common Objects in Context Challenge (COCO, распространённые объекты в контексте) — новый, более сложный контест, он предполагает определение границ объекта или разделение сцен на изображении с пиксельной точностью. Точность решения таких задач за последние три года выросла на 70%.

Одна из задач контеста — определение опорных точек на изображениях людей, по которым можно судить о геометрии объекта, и, как следствие, позе и динамике её изменения. Это позволяет вести эффективное видеонаблюдение и определять действия человека и индивидуальные физиологические особенности, например, походку. В Китае уже функционирует система аутентификации граждан по походке.

В конце 2017 года научная группа Джефри Хинтона, изобретателя обратного распространения ошибки в нейронных сетях, одного из самых влиятельных учёных в области искусственного интеллекта, опубликовала статью Dynamic Routing Between Capsules, в которой представлена новая архитектура нейронных сетей для работы с изображениями — капсульные нейронные сети, учитывающие физическую геометрию объекта при обучении.

Эта модель требует больших вычислительных ресурсов, но может быть очень эффективна при анализе динамики движения физических объектов.

В задачах обучения с подкреплением агент действует в среде, его действия описывает некоторую функциональность, которая принимает значение награды в случае успеха, наказания в случае провала.

Функциональность устроена так, чтобы обеспечивать обратную связь агенту, позволяя научиться достигать награды. Простая аналогия — дрессировка животных. Собака учится выполнять команды и получает награду в случае успеха. Обучение с подкреплением позволяет формировать у агента (алгоритма искусственного интеллекта) «разумное» автономное поведение—способность решать некоторые задачи во внешней среде.

Одна из самых успешных исследовательских лабораторий в области обучения с подкреплением — OpenAI из Кремниевой долины, в попечительском совете которой находятся Сэм Альтман из YCombinator, Питер Тиль и Илон Маск.

Свежая публикация лаборатории Quantifying Generalization in Reinforcement Learning посвящена задаче обобщения опыта агента в обучении с подкреплением. Обычно в этом классе задач качество обучения агента оценивают в той же среде, где он обучался. Но это не говорит о полноценном формировании навыка, скорее — о переобучении в рамках конкретной среды.

Для решения задачи обобщения опыта агента и формирования навыка исследователи написали игру CoinRun с десятками тысяч генерируемых автоматически уровней — это позволило обучать агента в различных средах и тестировать на уровнях, которые он никогда не видел.

Функцию награды также можно модифицировать, чтобы спровоцировать у агента «любопытное» поведение (Reinforcement Learning with Prediction-Based Rewards), которое помогает лучше обучаться.

В июле искусственный интеллект DeepMind обыграл команду профессиональных игроков в Quake 3 Arena Capture the Flag, многопользовательский 3D-шутер, где победу (захват и удержание чужого флага и защиту собственного) могут обеспечить только слаженные командные действия.

Команда искусственного интеллекта состояла из автономно действующих, обученных в ходе предыдущих игр агентов, показала способность к выработке стратегии, тактики и командной игре как с другими агентами, так и с человеком.

Модели искусственного интеллекта командно действовали слаженнее, чем живые игроки, и перенимали при этом человеческие паттерны поведения (следование за игроками своей команды, удержание контроля над базой противника). Отдельная сложность здесь была в эффективном ориентировании агентов в трёхмерной карте, и для исключения «запоминания» карты её топология в новой игре изменялась.

В августе прошло соревнование команды агентов искусственного интеллекта OpenAI Five с командой профессиональных игроков в Dota 2, сложную многопользовательскую компьютерную стратегию. Искусственный интеллект обыграл команду любителей, но проиграл команде лучших профессиональных игроков. Этот результат показывает возможность к обучению агентов в сложных средах и, что важно, к эффективной коллаборации.

Алгоритмы нейронных сетей требуют большой вычислительной мощности, так как содержат множество вычислительных операций над матрицами и тензорами. Чтобы ускорить вычисления, используются специальные архитектуры процессоров, которые производят операции над массивами, а не парами чисел.

Тактовые частоты (частота выполнения элементарных арифметических операций) в таких процессорах обычно ниже, но архитектура позволяет произвести операцию умножения двух матриц за один вычислительный такт, что даёт существенный выигрыш в скорости.

Тензорный процессор Google (TPU) — интегральная схема специального назначения (ASIC) для решения задач машинного обучения. Google представил схему в 2016 году, в этом году вышло третье поколение процессора, также компания открыла бесплатный доступ к TPU v2.

Вычисления операций над матрицами на таких процессорах в десятки раз производительнее, чем на GPU (содержащем тысячи арифметических блоков, которые выполняют простейшие операции над парами чисел параллельно), и выигрывающих за счет этого у CPU (классической архитектурой фон Неймана).

Все более актуальны становятся FPGA-архитектуры (Field Programmable Gate Array), позволяющие программировать логическую схему устройства для решения конкретной вычислительной задачи оптимальным образом.

Intel применяют FPGA-процессоры в камерах видеонаблюдения для производительной реализации технологий компьютерного зрения (ресурсоёмкие конволюционные нейронные сети).

Эти решения востребованы сегодня в индустрии безопасности, в ритейле и на производстве: они позволяют распознавать лица людей в толпе, детектировать объекты и события, а также контролировать производственные процессы в режиме реального времени.

Гибкость FPGA-архитектур даёт возможность перепрограммировать интегральную схему при изменении алгоритмов для поддержания оптимальной производительности системы.

Перспективным направлением исследований является применение аппарата фундаментальной математики — дифференциального исчисления, дифференциальной геометрии и топологии к формированию новых архитектур нейронных сетей и совершенствованию алгоритмов машинного обучения.

Одна из ярких научных работ конца 2018 года — публикация "Neural Ordinary Differential Equations" учёных из канадского института искусственного интеллекта Vector Institute.

В статье описывается замена дискретных слоёв нейронной сети обыкновенными дифференциальными уравнениями — это позволит строить более точные нелинейные аппроксимации решения и моделировать непрерывные процессы. Такой подход актуален при описании физических процессов с небольшой стохастической компонентой.

Ещё одно актуальное направление — автоматический поиск оптимальных архитектур нейронных сетей. Эта постановка задачи предполагает наличие внешнего цикла оптимизации (или нейросети) над шагами обучения и тестирования нейросети, решающей целевую задачу, чтобы выбрать лучшую модель с оптимальными параметрами.

Более совершенными подходом может стать применение аппарата дифференциальной геометрии и топологии к анализу исходных данных и необходимых преобразований над ними — исследования в этом направлении ведутся в Intuition. Развитие новых алгоритмов позволит радикально улучшить качество и повысить производительность решений на основе машинного обучения.

Один из главных трендов 2018 года — создание эффективных обобщённых моделей машинного обучения в каждом из перечисленных направлений исследований. Активно развиваются системы совместной обработки графической и текстовой информации, системы переноса знаний — то, что в человеческом сознании называется ассоциативными связями, отвечающими за образы и абстрактные концепции.

Большие успехи наблюдаются в развитии обучения с подкреплением — обучении агентов автономному функционированию в среде. Человечество уверенно движется в сторону создания общего искусственного интеллекта, в то время как узкий (слабый) искусственный интеллект давно и успешно внедряется в различных индустриях.

Обзор развития технологий искусственного интеллекта в 2018 году

Введение: рынок искусственного интеллекта сегодня

Пять значимых технологий ИИ 2018 года

1. Создаются универсальные системы понимания естественного языка

2. Решена задача распознавания объектов на изображении

3. Обучение с подкреплением позволило ИИ выигрывать у команд профессиональных игроков в сложных многопользовательских играх Dota и Quake 3 Arena

4. Широкое распространение получают специальные архитектуры процессоров, оптимизированные для глубокого обучения

5. Предложены принципиально новые архитектуры нейронных сетей

Резюме