Обзор развития технологий искусственного интеллекта в 2018 году

Победа ИИ над игроками в Dota, принципиально новые архитектуры нейронных сетей, универсальные системы понимания естественного языка — насколько ближе мы стали к общему искусственному интеллекту.


Введение: рынок искусственного интеллекта сегодня

В 2017-2018 годах искусственный интеллект (ИИ) из технологии превратился в индустрию. Отдельные кейсы внедрения алгоритмов машинного обучения в ключевых индустриях слились в непрерывные программы интеграции ИИ в цифровые продукты и технологические процессы.

В индустрии можно выделить несколько технологических направлений — рекомендательные системы с глубоким обучением, технологии понимания естественного языка, компьютерное зрение, предиктивные модели и обучение с подкреплением.

На рынке ИИ существуют несколько типов компаний.

  • Научно-исследовательские лаборатории, разрабатывающие алгоритмы.
  • Продуктовые компании, часто это стартапы, мечтающие об экспоненциальном росте их продукта благодаря интеграции ИИ.
  • Консалтинги, объясняющие бизнесу, как интегрировать новые технологии, а также предлагающие свои b2b-решения.

Лидеры R&D-активности в индустрии — внутренние лаборатории технологических гигантов (Google, Amazon, Microsoft, Netflix) и несколько некоммерческих организаций (OpenAI, Vector Institute), при этом благодаря разнообразию задач и бурному росту рынка есть пространство и для небольших научно-исследовательских коллективов.

Растёт количество новых компаний, рынок очень динамичен. Количество активных ИИ-стартапов в США в 2018 году выросло в два раза относительно 2015 года, их финансирование венчурным капиталом удвоилось за последние два года.

Количество вакансий с требованиями навыков разработки глубоких нейронных сетей с 2015 года по 2017 год выросло в 35 раз. В 2017-2018 годах появились национальные государственные стратегии в сфере ИИ.

В Китае огромный объём государственных инвестиций в R&D, в США больше инвестируют корпорации. Наиболее весомый вклад в ИИ-исследования по-прежнему вносят ученые из США — их индекс цитируемости на 83% выше, чем среднемировой уровень.

Пять значимых технологий ИИ 2018 года

1. Создаются универсальные системы понимания естественного языка

Технологии понимания естественного языка давно решают узкие задачи: поисковые системы обрабатывают запросы с учётом семантики языка, «Google Переводчик» неплохо отражает общий смысл фразы на другом языке, технологии распознавания речи делают всё меньше и меньше ошибок, а некоторые специфические архитектуры нейтронных сетей позволяют извлекать нужную информацию из произвольных текстов.

Однако задача поддержания непринужденной беседы по-прежнему не решена, Siri всё ещё не похожа на разумного собеседника.

Основной вызов в NLP (Natural Language Processing, обработка естественного языка) сейчас — создание универсальных языковых моделей и архитектур, которые будут решать различные задачи работы с текстом с помощью одной системы.

Проще говоря, создание системы, которая будет «понимать» текстовую информацию и сможет взаимодействовать с вами так, как это делал бы человек, прочитавший текст и обладающий некоторым багажом знаний.

В 2018 году для решения этой задачи коллаборацией учёных из Нью-Йоркского университета, университета штата Вашингтон и DeepMind был разработан новый бенчмарк GLUE — General Language Understanding Evaluation (общая оценка понимания естественного языка).

GLUE оценивает системы понимания естественного языка по результатам выполнения заданий: ответов на вопросы, анализа тональности текста и продолжения повествования. Для решения некоторых из этих задач требовались алгоритмы переноса знаний (transfer learning), актуальные, когда отсутствует достаточная обучающая выборка.

В бенчмарк также включены вопросы из Winograd schema challenge, более совершенного аналога теста Тьюринга на наличие у машины «интеллекта». GLUE был опубликован в мае 2018 года, за полгода его существования результаты лучших моделей улучшились с 68% верных ответов до 80% (результат последней модели Google BERT), при этом средний результат человека составляет 90%.

Лингвистические модели прошлых лет (word2vec) были построены на статистике и учитывали совместную встречаемость слов в огромном корпусе текстов. Современные модели (ULMfit, ELMo) используют технологию обучения без учителя.

Например, создание вложений (векторизация слов) с помощью рекуррентных нейронных сетей, обученных на больших корпусах текстов, позволяет сформировать в модели некоторое первичное общее представление о семантике языка, прежде чем перейти к решению конкретной задачи.

2. Решена задача распознавания объектов на изображении

Компьютерное зрение — область, в которой применение глубоких нейронных сетей многократно повысило эффективность решения прикладных задач. Определение объектов на изображениях и распознавание лиц уже стали мейнстримом.

Конволюционные (свёрточные) нейронные сети — самая актуальная сегодня архитектура нейронных сетей для работы с изображениями — позволяют в некотором смысле усреднять комбинации пикселей, не теряя информации об их относительном расположении. Модель «запоминает» силуэт объекта и может распознать подобный объект на другом изображении.

В 2018 году закрылось самое популярное соревнование алгоритмов компьютерного зрения ImageNet, так как качество распознавания и нахождения объектов на изображениях превысило человеческие возможности, приблизившись к 98%.

Модели компьютерного зрения обычно состоят из многих слоёв конволюционных нейронных сетей и требуют большого времени для качественного обучения. За последние полтора года среднее время обучения моделей классификаторов изображений (базовая задача компьютерного зрения) снизилось в 15 раз — это говорит о развитии как алгоритмов, так и вычислительных мощностей.

Common Objects in Context Challenge (COCO, распространённые объекты в контексте) — новый, более сложный контест, он предполагает определение границ объекта или разделение сцен на изображении с пиксельной точностью. Точность решения таких задач за последние три года выросла на 70%.

Одна из задач контеста — определение опорных точек на изображениях людей, по которым можно судить о геометрии объекта, и, как следствие, позе и динамике её изменения. Это позволяет вести эффективное видеонаблюдение и определять действия человека и индивидуальные физиологические особенности, например, походку. В Китае уже функционирует система аутентификации граждан по походке.

В конце 2017 года научная группа Джефри Хинтона, изобретателя обратного распространения ошибки в нейронных сетях, одного из самых влиятельных учёных в области искусственного интеллекта, опубликовала статью Dynamic Routing Between Capsules, в которой представлена новая архитектура нейронных сетей для работы с изображениями — капсульные нейронные сети, учитывающие физическую геометрию объекта при обучении.

Эта модель требует больших вычислительных ресурсов, но может быть очень эффективна при анализе динамики движения физических объектов.

3. Обучение с подкреплением позволило ИИ выигрывать у команд профессиональных игроков в сложных многопользовательских играх Dota и Quake 3 Arena

В задачах обучения с подкреплением агент действует в среде, его действия описывает некоторую функциональность, которая принимает значение награды в случае успеха, наказания в случае провала.

Функциональность устроена так, чтобы обеспечивать обратную связь агенту, позволяя научиться достигать награды. Простая аналогия — дрессировка животных. Собака учится выполнять команды и получает награду в случае успеха. Обучение с подкреплением позволяет формировать у агента (алгоритма искусственного интеллекта) «разумное» автономное поведение—способность решать некоторые задачи во внешней среде.

Одна из самых успешных исследовательских лабораторий в области обучения с подкреплением — OpenAI из Кремниевой долины, в попечительском совете которой находятся Сэм Альтман из YCombinator, Питер Тиль и Илон Маск.

Свежая публикация лаборатории Quantifying Generalization in Reinforcement Learning посвящена задаче обобщения опыта агента в обучении с подкреплением. Обычно в этом классе задач качество обучения агента оценивают в той же среде, где он обучался. Но это не говорит о полноценном формировании навыка, скорее — о переобучении в рамках конкретной среды.

Для решения задачи обобщения опыта агента и формирования навыка исследователи написали игру CoinRun с десятками тысяч генерируемых автоматически уровней — это позволило обучать агента в различных средах и тестировать на уровнях, которые он никогда не видел.

Функцию награды также можно модифицировать, чтобы спровоцировать у агента «любопытное» поведение (Reinforcement Learning with Prediction-Based Rewards), которое помогает лучше обучаться.

В июле искусственный интеллект DeepMind обыграл команду профессиональных игроков в Quake 3 Arena Capture the Flag, многопользовательский 3D-шутер, где победу (захват и удержание чужого флага и защиту собственного) могут обеспечить только слаженные командные действия.

Команда искусственного интеллекта состояла из автономно действующих, обученных в ходе предыдущих игр агентов, показала способность к выработке стратегии, тактики и командной игре как с другими агентами, так и с человеком.

Модели искусственного интеллекта командно действовали слаженнее, чем живые игроки, и перенимали при этом человеческие паттерны поведения (следование за игроками своей команды, удержание контроля над базой противника). Отдельная сложность здесь была в эффективном ориентировании агентов в трёхмерной карте, и для исключения «запоминания» карты её топология в новой игре изменялась.

В августе прошло соревнование команды агентов искусственного интеллекта OpenAI Five с командой профессиональных игроков в Dota 2, сложную многопользовательскую компьютерную стратегию. Искусственный интеллект обыграл команду любителей, но проиграл команде лучших профессиональных игроков. Этот результат показывает возможность к обучению агентов в сложных средах и, что важно, к эффективной коллаборации.

4. Широкое распространение получают специальные архитектуры процессоров, оптимизированные для глубокого обучения

Алгоритмы нейронных сетей требуют большой вычислительной мощности, так как содержат множество вычислительных операций над матрицами и тензорами. Чтобы ускорить вычисления, используются специальные архитектуры процессоров, которые производят операции над массивами, а не парами чисел.

Тактовые частоты (частота выполнения элементарных арифметических операций) в таких процессорах обычно ниже, но архитектура позволяет произвести операцию умножения двух матриц за один вычислительный такт, что даёт существенный выигрыш в скорости.

Тензорный процессор Google (TPU) — интегральная схема специального назначения (ASIC) для решения задач машинного обучения. Google представил схему в 2016 году, в этом году вышло третье поколение процессора, также компания открыла бесплатный доступ к TPU v2.

Вычисления операций над матрицами на таких процессорах в десятки раз производительнее, чем на GPU (содержащем тысячи арифметических блоков, которые выполняют простейшие операции над парами чисел параллельно), и выигрывающих за счет этого у CPU (классической архитектурой фон Неймана).

Все более актуальны становятся FPGA-архитектуры (Field Programmable Gate Array), позволяющие программировать логическую схему устройства для решения конкретной вычислительной задачи оптимальным образом.

Intel применяют FPGA-процессоры в камерах видеонаблюдения для производительной реализации технологий компьютерного зрения (ресурсоёмкие конволюционные нейронные сети).

Эти решения востребованы сегодня в индустрии безопасности, в ритейле и на производстве: они позволяют распознавать лица людей в толпе, детектировать объекты и события, а также контролировать производственные процессы в режиме реального времени.

Гибкость FPGA-архитектур даёт возможность перепрограммировать интегральную схему при изменении алгоритмов для поддержания оптимальной производительности системы.

5. Предложены принципиально новые архитектуры нейронных сетей

Перспективным направлением исследований является применение аппарата фундаментальной математики — дифференциального исчисления, дифференциальной геометрии и топологии к формированию новых архитектур нейронных сетей и совершенствованию алгоритмов машинного обучения.

Одна из ярких научных работ конца 2018 года — публикация "Neural Ordinary Differential Equations" учёных из канадского института искусственного интеллекта Vector Institute.

В статье описывается замена дискретных слоёв нейронной сети обыкновенными дифференциальными уравнениями — это позволит строить более точные нелинейные аппроксимации решения и моделировать непрерывные процессы. Такой подход актуален при описании физических процессов с небольшой стохастической компонентой.

Ещё одно актуальное направление — автоматический поиск оптимальных архитектур нейронных сетей. Эта постановка задачи предполагает наличие внешнего цикла оптимизации (или нейросети) над шагами обучения и тестирования нейросети, решающей целевую задачу, чтобы выбрать лучшую модель с оптимальными параметрами.

Более совершенными подходом может стать применение аппарата дифференциальной геометрии и топологии к анализу исходных данных и необходимых преобразований над ними — исследования в этом направлении ведутся в Intuition. Развитие новых алгоритмов позволит радикально улучшить качество и повысить производительность решений на основе машинного обучения.

Резюме

Один из главных трендов 2018 года — создание эффективных обобщённых моделей машинного обучения в каждом из перечисленных направлений исследований. Активно развиваются системы совместной обработки графической и текстовой информации, системы переноса знаний — то, что в человеческом сознании называется ассоциативными связями, отвечающими за образы и абстрактные концепции.

Большие успехи наблюдаются в развитии обучения с подкреплением — обучении агентов автономному функционированию в среде. Человечество уверенно движется в сторону создания общего искусственного интеллекта, в то время как узкий (слабый) искусственный интеллект давно и успешно внедряется в различных индустриях.

0
8 комментариев
Написать комментарий...
Dmitriy Salikhov

"Человечество уверенно движется в сторону создания общего искусственного интеллекта"
Можете назвать хотя бы одно движение в эту сторону?

Ответить
Развернуть ветку
Ivan Ilin
Автор

Создаются все более универсальные системы, способные оперировать абстрактными концепциями (универсальные системы понимания естественного языка), адаптироваться к среде (обучение с подкреплением) и переобучаться на других типах данных (transfer learning).

Ответить
Развернуть ветку
Александр Иванов

Fb

Ответить
Развернуть ветку
stivstivsti

Нейросеть one

Ответить
Развернуть ветку
Pavel Kvasnikov

Победа в компьютерных играх не результат работы ии, а просто разница во времени принятия решения. В ку3, в частности, ии победить профессиональную команду не в состоянии, как минимум, потому что ку3 непрофессиональный спорт уже лет 10. На момент 2008 сопротивления ии не мог оказать.
Дота2 - победы быть не может до тех пор, пока ии тренируется непрофессиональным игроком.
Также и во многих сферах.

Ответить
Развернуть ветку
Феликс Юрьевич

Про доту знаю поверхностно, но игры OpenAI с проиграками смотрел с интересом. ИИ тренируется не с игроками, а сам с собой. За сутки он наигрывает 160 лет, кажется. По сути тыкает кнопки наугад и при полезном действие получает некие свои очки. Но интереснее всего было смотреть на саму игру где 5 ботов никак не связанных между собой действовали очень слаженно. Они заманивали и разводили игроков. Первые 20 минут игры роботы полностью доминировали, а потом начали сливать. Со слов разработчиков проблема в том, что игры между собой не длятся дольше 20 минут и ИИ ещё не знает, что нужно делать в лейте.

Ответить
Развернуть ветку
Дима Ковальский

Было бы круто получать подборку лучшего порно от ии, исходя из моих запросов

Ответить
Развернуть ветку
Ivan Ilin
Автор

Немного за гранью моего user experience, но думаю по подписке PornHub норм подборки формирует, рекомендательная система на нейросетках, как положено)

Ответить
Развернуть ветку
5 комментариев
Раскрывать всегда