Продуктивный диалог о машинном обучении

Перевод материала аналитика Andreessen Horowitz Бенедикта Эванса.

О машинном обучении, похоже, слышал каждый. И дело не только в том, что каждый день появляется множество стартапов с ним связанных, а крупные технологические компании пересматривают организацию своей работы, ориентируясь на новые алгоритмы. Машинному обучению действительно уделяют много внимания в СМИ. У нас уже сложилось стойкое ощущение: за машинным обучением следующий большой прорыв.

Рискну предположить: большинство в целом понимает, что из себя представляет нейронная сеть и как она работает с данными, позволяя находить в них неочевидные, но логически выводимые закономерности или структуры. Не так давно с таким заданием мог справиться лишь человек.

Машинное обучение позволяет компьютеру решать задачи, прежде ему непосильные, но лёгкие для человека, или которым человек не мог дать толковое описание. И мы уже видели впечатляющие (или пугающие, зависит от вашей точки зрения) презентации возможностей распознавания изображений и синтеза речи.

Тем не менее я считаю: мы пока так и не поняли, какое значение имеет машинное обучение, какую роль оно сыграет в развитии экономики в общем и технологических компаний в частности. Мы всё ещё не научились конструктивно рассуждать о тех новинках, в создании которых оно пригодится, и о том, что машинное обучение значит для всех нас и какие важные проблемы можно решить с его помощью.

С понятием «искусственный интеллект» дело обстоит не лучше. На нём разговор обычно заканчивается, даже не начавшись — едва упомянув ИИ, мы тут же начинаем вести себя, как обезьяны из «Космической одиссеи» Кубрика, столкнувшиеся с чёрным монолитом.

Можно составить целый список тем, рассуждения на которые не приносят никакой пользы. Например:

Данные — новая нефть.
Всеми данными владеют Google и Китай (или Facebook, или Amazon).
Искусственный интеллект отберёт у человека все рабочие места.
Употреблять термин «искусственный интеллект» безрезультативно.

Гораздо полезнее размышлять о следующем:

Об автоматизации.
О появлении новых технологий.
О реляционных базах данных.

При чём здесь базы данных с реляционной структурой? Очень просто — именно они изменили возможности вычислительной техники и существенно расширили область её применения. До появления реляционных баз данных в конце 1970-х годов потребовался бы отдельный проект, чтобы из одной базы получить выборку всех клиентов из города X, купивших товар Y.

Базы данных не располагали структурой, позволявшей бы с лёгкостью выполнять произвольные перекрёстные запросы; они больше напоминали регистрационные системы. Став реляционными, базы данных превратились в продвинутый инструмент для ведения бизнеса.

Это привело к появлению новых многомиллиардных компаний. Реляционная структура подарила нам не только Oracle, но и SAP, а SAP и похожие компании в свою очередь дали нам цепочки поставок «строго вовремя» — без них не было бы Apple и Starbucks.

К началу 1990 годов все корпоративные приложения строились на реляционных базах данных. PeopleSoft, CRM, SuccessFactors и десяток других. Никто, глядя на SuccessFactors или Salesforce, не говорил: «Эти системы не будут работать, потому что все данные у Oracle», — сама технология скорее обеспечила появление этих компаний.

И несмотря на масштабный экономический эффект, который принесли реляционные базы данных, победитель не получил всё. Я имею в виду следующее: одна и та же база данных не становится лучше, если её используют разные компании. База данных сети магазинов Safeway не станет лучше, если Caterpillar купит такую же.

То же самое применимо и к машинному обучению: оно строится на данных, а их качество напрямую зависит от области применения. Рукописные тексты улучшают распознавание компьютером почерка, а данные с газовой турбины помогают системе более точно предугадывать поломки и сбои. Но эти базы несовместимы, невзаимозаменяемы.

Хорошей почвой для размышлений о машинном обучении сегодня служит мысль о том, что эта технология представляет собой качественное изменение в области применения компьютеров. Однако рано или поздно она появится в любом устройстве, и мы перестанем обращать на неё внимание.

Так мы подходим к самому распространённому заблуждению относительно машинного обучения: оно якобы служит единственным, универсальным средством на пути к созданию HAL 9000. К нему же относятся и прочие предрассудки вроде «у Google есть все данные в мире» или «IBM действительно построила штуку под названием Watson».

В нашем отношении к автоматизации кроется вечный изъян — на каждом новом витке в её развитии мы воображаем, будто создаём нечто антропоморфное, нечто, обладающее общим интеллектом. В 20-е и 30-е годы прошлого столетия люди представляли, что по фабрикам будут разгуливать рабочие с молотками в руках, в 1950-х надеялись переложить работу по дому на человекоподобных роботов. Но таких роботов у нас нет, вместо них — стиральные машины.

Стиральная машина такой же робот, только не «умный»: ей неведомо, что такое вода и вещи. Более того, она далеко не универсальна даже в сфере стирки и мытья. В стиральную машину нельзя, к примеру, положить тарелки, равно как нельзя загрузить одежду в посудомойку (строго говоря, можно, но результат будет не тот, на который вы рассчитываете).

Устройства на вашей кухне или в ванной — лишь один из способов автоматизации, они не так сильно отличаются от конвейера или манипулятора на заводе. В той же мере машинное обучение позволяет нам решать группы определённых задач, которые прежде были компьютеру не по зубам. И для решения каждой отдельной проблемы требуются разная реализация, разные данные, разные способы выхода на рынок и нередко разные компании.

Машинное обучение — не что иное, как стиральная машина, инструмент для автоматизации.

Выходит, одна из самых значительных трудностей в диалоге о машинном обучении — поиск золотой середины между механическим разъяснением математики и грёзами об общем искусственном интеллекте. Машинное обучение не создаст HAL 9000 (очень немногие специалисты полагают, что такой компьютер появится хотя бы в скором времени), но и называть технологию «обычной статистикой» в равной степени контрпродуктивно.

Проведя параллель с реляционными базами данных, можно предположить, что обсуждение машинного обучения напоминает ситуацию вокруг SQL в 1980-е годы. Как мы от объединения таблиц переходим к мыслям о Salesforce.com? Легко сказать «эта технология позволяет задавать качественно новые вопросы», но не всегда очевидно, какие именно.

Можно раз за разом показывать впечатляющие демо с распознаванием речи или изображений, но опять — какие задачи машинное обучение поможет решить обычной компании? Команда одного из ведущих американских СМИ как-то поделилась со мной: «С помощью машинного обучения мы можем проиндексировать все интервью со спортсменами на нашем канале за последние десять лет. Но зачем?»

Какое применение машинное обучение может найти у предприятий? Я думаю, все наши мысли по этому поводу можно разделить на две группы. Первая касается обработки различных типов данных и задач.

Машинное обучение служит инструментом для анализа и оптимизации уже имеющихся данных. Например, наша портфельная компания Instacart силами трёх разработчиков на основе открытых источников создала систему для оптимизации маршрутов закупщиков, вполовину улучшив показатели.
Машинное обучение позволяет по-новому взглянуть на данные, которыми мы располагаем. Адвокат, скажем, может искать «агрессивные» электронные письма или вызывающую тревогу переписку, а может быстро искать по ключевым словам или в кластерах документов.
С помощью машинного обучения мы можем обрабатывать новые типы данных, до сих пор недоступных компьютеру — изображения, аудио или видео.

Больше всего меня будоражит распознавание изображений. Если тексты и числа компьютер обрабатывал с самого своего появления, то с картинками и видео до недавнего времени дело обстояло неважно. Теперь же компьютеры способны «видеть» в том же смысле, что и «читать». Стало быть, сенсоры изображений, а вместе с ними и микрофоны, превратились в полноценные устройства ввода.

Я намеренно говорю «сенсор», а не «камера», подразумевая новый, мощный и гибкий инструмент, собирающий поток данных, которые потенциально способна распознать машина. Множество проблем решится с помощью машинного зрения, хотя сейчас нам так не кажется.

И речь не о распознавании картинок с котиками. Недавно я пообщался с представителями фирмы, производящей автомобильные сидения. Так вот, с помощью недорогого процессора и матрицы из смартфона они создали нейронную сеть, определяющую, есть ли на ткани складки. В этом случае нет смысла говорить об «искусственном интеллекте» — налицо простая автоматизация задачи, с которой ранее справлялся исключительно человек.

Этот дух автоматизации формирует вторую группу. Не нужно большого опыта, чтобы следить за складками на ткани — требуется лишь мозг млекопитающего. Один из моих коллег даже предположил, что машинное обучение справится с тем, чему можно научить собаку.

Подобное мнение помогает и в размышлениях о предвзятости ИИ (чему именно научилась собака, из чего состояли данные для обучения, как вы ставили задачи).

И всё же мы вновь оказываемся связанными по рукам и ногам, так как в отличие от любой нейронной сети, которую мы способны создать, собаки наделены общим интеллектом и здравым смыслом.

Основатель Coursera Эндрю Ын как-то предположил, что машинное обучение будет справляться с любой задачей, на решение которой у человека уходит меньше секунды. Рассуждения о машинном обучении зачастую превращаются в поиски метафор, но мне по душе одна-единственная метафора, где ИИ — вечный студент или, возможно, вечный ребёнок лет десяти.

Пять лет назад компьютер мог самостоятельно рассортировать ваши снимки лишь по размеру. Ребёнок мог бы выбрать фотографии с мужчинами и женщинами. Подросток решил бы, какие фотографии классные, а какие нет, студент же сказал бы, какие снимки показались ему интересными.

На нынешнем этапе машинное обучение позволительно сравнить с ребёнком или даже подростком. А до уровня студента оно может и не добраться. Но что бы вы сделали, будь в вашем распоряжении миллион подростков, анализирующих данные? Какие звонки вы бы прослушивали, какие изображения распознавали, какие транзакции проверяли?

Дело вот в чём: машинное обучение не должно состязаться с экспертами и профессионалами с многолетним опытом. Мы не занимаемся автоматизацией экспертов, а всего-навсего просим алгоритм «прослушать все телефонные беседы и найти гневные», «найти в электронных письмах тревожные сообщения» или «на тысяче фотографий отыскать крутого (или по крайней мере забавного) человека».

В каком-то смысле для этого и нужна автоматизация. Excel не дал нам искусственных бухгалтеров, Photoshop и Indesign — искусственных графических дизайнеров, а паровой двигатель — искусственных лошадей. Мы просто автоматизировали одну задачу, но в больших масштабах.

Моя метафора, как, впрочем, и любое сравнение, порой не работает. В отдельных областях машинное обучение позволяет обнаружить не только то, что мы могли бы выяснить своими силами, но и то, что человек проследить не способен. Иначе говоря, обнаружить закономерности, пересечения и следствия, заметить которые не по плечу ни ребенку, ни даже взрослому.

Лучший пример — сеть AlphaGo. Эта система играет в го не так, как ведёт игру в шахматы шахматный алгоритм — анализируя каждую возможную ветку ходов в последовательности. В случае с AlphaGo компьютеру дают правила и доску, а стратегии он вырабатывает сам, проигрывая с самим собой столько игр, сколько в жизни не сыграл бы ни один человек.

Другими словами, какие же области достаточно узкие, чтобы мы могли обозначить компьютеру правила, но в то же время глубокие, чтобы компьютер, обработав все данные, вывел новые результаты?

Я довольно часто встречаюсь с представителями крупных компаний и спрашиваю о том, какие технологии им нужны. У них накопилось на удивление много задач, с которыми без труда справилось бы машинное обучение — они связаны с оптимизацией и анализом, распознаванием изображений и аудио.

Вместе с тем единственная причина, по которой мы говорим о беспилотных автомобилях и дополненной реальности, кроется в том, что машинное обучение, похоже, позволяет ими заниматься.

И после нашего диалога о складках на ткани и поисках эмоциональных телефонных разговоров эти компании как бы откидываются в кресле и спрашивают: «Прекрасно, что ещё?» Чем ещё нам позволит заниматься машинное обучение, чем ещё оно нас удивит? У нас есть лет 10–15, чтобы ответить на эти вопросы — после они нам наскучат.

#будущее