AI = “Automated Inspiration"

Сегодня в рубрике #чтопочитать мы снова поговорим об искусственном интеллекте, машинном обучении и вдохновении. Это перевод статьи с Medium Towards Data Science.

В 19 веке врачи могли прописать ртуть при перепадах настроения и мышьяк при астме. Возможно, им также не приходило в голову мыть руки перед операцией. Но дело не в том, что они пытались убить вас — они просто не знали, что делать стоит, а что — нет.

У этих ранних врачей в тетрадях хранились ценные данные, но каждый из них обладал лишь одним кусочком большого пазла. Без современных инструментов обмена и анализа информации — а также науки для осмысления этих данных — суеверие с легкостью замещало всё то, что можно было бы увидеть через замочную скважину наблюдаемых фактов.

С тех пор технологии прошли долгий путь развития, но современный расцвет машинного обучения и искусственного интеллекта не сильно оторван от прошлого. Он является лишь продолжением основного человеческого инстинкта — осмысления окружающего мира, с целью принятия более разумных решений. Просто теперь технологии более совершенны, чем когда-либо.

Современный расцвет машинного обучения и искусственного интеллекта не оторван от прошлого. Просто теперь технологии более совершенны, чем когда-либо.

Воспринять эту вековую закономерность можно как революцию наборов данных (data-сетов), а не наблюдений (data points). И разница не мала. Наборы данных помогли сформировать современный мир.

Рассмотрим писцов Шумера (современный Ирак), которые прижимали стилусы к глиняным скрижалям более 5000 лет назад. Занимаясь этим, они изобрели не только первую систему письма, но и первую технологию хранения и обмена данными.

<p>Пример первой в мире технологии хранения и обмена данных — глиняный скрижаль. На него нельзя поместить большое количество данных, а их извлечение — тяжелая задача.</p>

Если вас вдохновляет возможность искусственного интеллекта обладать способностями, превосходящими человеческие, воспринимайте инструменты записи данных как путь к сверхчеловеческой памяти. Хотя сегодня легко воспринимать письменность как нечто должное, способность надежно хранить наборы данных является важнейшим первым шагом на пути к высшему интеллекту.

К сожалению, извлечение информации из глиняных скрижалей и их доэлектронных родственников — задача не из легких. Не получится просто по щелчку пальца подсчитать слова в книге. Вместо этого придется "загрузить" каждое слово в мозг, чтобы обработать его. Данная трудность сделала ранний анализ данных трудоемким, так что начальные подходы к нему концентрируются лишь на основном. В то время как королевство может проанализировать, сколько золота оно собрало с налогов, только бесстрашный человек решился бы попробовать такой же подход к, например, медицине, в которой тысячелетние традиции поощряли простую импровизацию.

Карта Джона Сноу, показывающая скопления случаев заболевания холерой во время эпидемии в Лондоне в 1854 году.

К счастью, в истории человечества было несколько невероятных первопроходцев. Например, карта смертей Джона Сноу во время вспышки холеры в Лондоне в 1858 году вдохновила медиков пересмотреть суеверие о том, что болезнь была вызвана миазмой (токсичным воздухом), и приступить к более детальному анализу питьевой воды.

Флоренс Найтингейл, аналитик (1820-1910)

Если Вы знакомы с книгой "Леди с лампой", написанной Флоренс Найтингейл, и ее героическим сопереживанием при работе медсестрой, вы можете удивиться, узнав, что она также была первопроходцем аналитики. Ее изобретательская инфографика во время Крымской войны спасла много жизней, определив плохую гигиену как основную причину смерти в больницах и вдохновив правительство на серьезное отношение к гигиене.

Полярная диаграмма, изобретенная Флоренс Найтингейл, показывает количество смертей, которые произошли от предотвратимых заболеваний (синий цвет); тех, которые были результатом ран (красный цвет); и тех, которые были вызваны другими причинами (черный цвет)

Эпоха "одного набора данных" началась наряду с тем, как ценность информации стала утверждаться во все большем количестве областей, что привело к изобретению компьютера. Нет, не того электронного приятеля, к которому вы привыкли сегодня. Термин "компьютер" сначала означал человеческую профессию, специалисты которой выполняли вычисления и обрабатывали данные вручную, чтобы извлечь их ценность.

Все эти люди были компьютерами! Фотография была сделана в 1950-х годах сотрудниками Supersonic Pressure Tunnel.

Прелесть данных заключается в том, что они позволяют сформировать мнение на основе минимальной информации. Взглянув на информацию, мы вдохновляемся на выдвижение новых вопросов, следуя по стопам Флоренс Найтингейл и Джона Сноу. В этом и заключается аналитика: вдохновление моделей и гипотез через исследование.

К сожалению, без второго набора данных мы не можем знать, является ли наше мнение, основанное на данных, глупостью или нет. Работает ли оно за пределами конкретных наблюдений, которые мы провели? У нас нет способа удостовериться в этом. Добро пожаловать в аналитику 1900-х годов.

Иллюстрация Пола J о предвзятости в принятии решений, основанных на данных.

Мы не можем доверять своим выводам, потому что наши бессознательные предубеждения (такие как склонность к подтверждению своей точки зрения) берут верх — мы замечаем то, что нам хочется заметить, а все остальное пропускаем. Нам может показаться, что мы видим всё, что можно увидеть, но на самом деле это всего лишь иллюзия. Мы, люди, обладаем менее хорошими вниманием и памятью, чем нам кажется, поэтому разведочный анализ данных часто является для нас своего рода ловушкой.

Аналитика заключается во вдохновении и разведке, но мнения, которые выходят за рамки изученных данных, нельзя воспринимать всерьез.

Чтобы проверить наше мнение о том, как работает мир за пределами изначальных данных, мы не можем использовать данные, которые вдохновили это мнение в первую очередь. Мы, люди, видим лицо Элвиса Пресли в картофельных чипсах. Хотя этот чипс может и выглядит как Элвис, мы не можем сделать вывод, о том, что большинство чипсов тоже выглядят как Элвис. Чтобы удостовериться в нашем мнении, не ограничиваясь примерами, которые его вдохновили, мы должны протестировать его на новых чипсах, которые мы раньше не видели.

В начале 20 века желание принимать лучшие решения в условиях неопределенности привело к рождению параллельной профессии: статистика. Специалисты по статистике помогают проверить, разумно ли вести себя так, будто наше предположение распространяется и за пределами текущего массива данных.

Известным примером является первый в мире учебник по статистике. Его автор описывает проведение гипотетического теста в ответ на утверждение своей подруги, о том, что она может на вкус определить, что было добавлено в чай первым — молоко или вода. Надеясь доказать её неправоту, он был вынужден сделать вывод, что она на самом деле обладает такой способностью.

Аналитика и статистика имеют значительную ахиллесову пяту: нельзя использовать одно и то же наблюдение как для создания гипотезы, так и для её проверки. Если вы решили использовать данные для строгости, а не для вдохновения, вам придется вдохновиться чем-либо другим. Традиционный источник вдохновения — долгие размышления. Другими словами, вы сидите и медитируете в шкафу, тщательно формулируя свой статистический вопрос, формулируя все свои предположения, а затем у вас есть один шанс проверить, действительно ли ваша модель мира имеет смысл.

К сожалению, для математической проверки всей Вашей гипотезы, требуется очень много усилий и обучения. Нужна серьезная психологическая подготовка. Но, по крайней мере, теперь у вас есть работающий способ проверить, стоит ли действовать соответственно вашим догадкам. Добро пожаловать в статистику конца 1900-х годов.

Статистическая строгость принуждает нас думать, прежде чем действовать, в то время как аналитика — это скорее игра с расширенным взглядом на прошлое. Эти дисциплины были почти трагикомически несовместимы, пока следующая крупная революция — разделение данных — всё не изменила.

Разделение данных — идея простая, но для такого ученого по данным, как я, это одна из самых важных идей. Если у вас есть только один набор данных, Вы должны сделать выбор между аналитикой (вдохновением, неподлежащим проверке) и статистикой (строгих выводах). Выход? Разделить набор данных на две части!

Такая роскошь сопровождается огромным ценником: количеством. Разделить данные не так уж и легко, если сбор достаточного количества информации даже для одного набора данных был трудным. Эпоха двух наборов данных — это довольно новый этап, который идет рука об руку с лучшим оборудованием для обработки данных, более низкими затратами на их хранение и возможностью обмениваться собранной информацией через Интернет.

Более того, технологические инновации, которые привели к эпохе двух наборов данных, быстро перешли к следующей фазе — эпохе трех наборов данных и автоматизированному вдохновению. Для этого теперь есть более привычное слово: машинное обучение.

Рассматривая набор данных до формирования своих вопросов, мы разрушаем его чистоту как источника статистической строгости. Если мы зададим неправильный вопрос или зададим его глупо, у нас не будет второй попытки.

Даже если вы подумываете о проведении поправки на множественную проверку гипотез — статистической процедуры, позволяющей выдвигать несколько гипотез для каждого набора данных — ваши действия будут действительны только в том случае, если вы планируете все свои гипотезы заранее. Нельзя задать несколько десятков вопросов используя один набор данных, постепенно приходя к лучшему результату и притворяясь, что всё идет гладко.

Для того чтобы строгий подход был обоснован, вы должны продумать всё заранее и, при наличии нескольких вопросов, использовать погрешности, а затем выполнить все тесты одновременно и только один раз. Вы не можете использовать этот тестовый набор данных более одного раза.

Поскольку у нас есть только одна попытка, откуда нам знать, какой аналитический "инсайт" наиболее достоин тестирования? Если бы у нас был третий набор данных, мы бы могли использовать его для проведения тест-драйва. Этот процесс называется валидацией; он лежит в основе того, что позволяет машинному обучению работать.

Как только у вас есть возможность подвергать всё подряд валидации, вы можете спокойно позволить всем придумать решение: опытному аналитику, стажеру и даже алгоритмам, которые понятие не имеют в чём заключается ваш бизнес.

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.psychologytoday.com%2Fsites%2Fdefault%2Ffiles%2Ffield_blog_entry_images%2F2019-02%2F_vladgrin_shutterstock_78881305.jpg&postId=140179" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Машинное обучение — это революция в области наборов данных, а не просто данных. Оно зависит от роскоши обладания достаточным количеством данных для их тройного разделения.

Как же искусственный интеллект (ИИ) связан с этим? Машинное обучение с помощью глубоких нейронных сетей технически называется глубинным обучением, но оно получило еще одно прозвище: ИИ. Хотя когда-то термин ИИ имел другое значение, на сегодняшний день, чаще всего, он используется в качестве синонима глубинного обучения.

Глубокие нейронные сети заработали свой ажиотаж благодаря своим преимуществам по сравнению с менее сложными алгоритмами машинного обучения при решении различных сложных задачах. Но для их обучения требуется гораздо больше данных, а системные требования выходят за рамки типичного ноутбука. Поэтому рост современного ИИ связан с технологией облачного хранения информации; облако позволяет арендовать чужой центр данных вместо того чтобы брать на себя все трудности по созданию установки глубинного обучения, что делает ИИ предложением, которое можно попробовать перед покупкой.

В итоге у нас есть полный набор профессий: ML/AI, специалисты по аналитике и специалисты по статистике. Термин, который охватывает все из них, называется наукой о данных — дисциплиной, делающей данные полезными.

Современная наука о данных является продуктом эпохи трех наборов данных, но многие отрасли промышленности регулярно генерируют более чем достаточно данных. Так может быть можно использовать и четыре набора данных?

Для начала ответьте на вопрос: каков ваш следующий шаг, если модель, которую вы только что обучили, получила низкий балл валидации? Большинство людей сразу же потребуют узнать причину. К сожалению, нет никакого набора данных, который помог бы вам с этим. Возможно, у вас возникнет соблазн залезть в набор данных валидации, но, отладка нарушает его способность работать эффективно.

Подвергая свой валидационный набор данных анализу, вы фактически превращаете три набора данных обратно в два. Вместо того, чтобы искать помощь, вы невольно уходите в прошлый век!

Решение лежит за пределами трех наборов данных. Чтобы разблокировать более умную тренировочную итерацию и настройку гиперпараметров, вам стоит присоединиться к следующему шагу развития: эпохе четырех наборов данных.

Если первые три набора данных представляют собой вдохновение, итерацию и строгое тестирование, то четвертый набор данных ускоряет процесс, укорачивая цикл разработки ИИ благодаря продвинутым аналитическим методикам, нацеленным на построение догадок о том, какие подходы стоит опробовать на каждом шаге. Используя четырехстороннее разделение данных, вы даете себе возможность максимально эффективно использовать обилие данных! Добро пожаловать в будущее.

Оригинальная статья

AI = “Automated Inspiration"

Краткий обзор истории (и будущего!) науки о данных

Изобретение письменности

Расцвет аналитики

Недостатки аналитики

От наборов данных к разделению данных

Ахиллесова пята

Революция набора данных

Тестирование как одноразовое предложение

Роскошь третьего набора данных

AI = Automated Inspiration (Автоматизированное вдохновение)

Будущее вдохновения