Что общего между Data Science и бомжом на свалке?

Данные играют все более фундаментальную роль в любом бизнесе. Data-science, Data-driven, Data-based – сложно поверить, что все эти слова прочно вошли в обиход только в последние 5-10 лет.

Скорость роста числа данных поражает. Причина в революции информационных технологий. Маленький iPad обладает большей мощностью, чем самый мощный компьютер мира за 15 млн долларов всего 25 лет назад. Число устройств подключенных к интернету в 2 раза больше населения Земли. При этом на каждого человека приходится больше 9 кв.м. экранов.

Общая парадигма отношения к данным в бизнесе – чем больше данных, тем лучше. Надо только измерять, контролировать и находить корреляции. А там уж и ответы на все вопросы. Основная проблема подхода в том, что различить корреляцию и причинно-следственную связь бывает очень сложно.

Что общего между Data Science и бомжом на свалке?

Например, с 1999 по 2010 г. объем расходов на научные исследования в США почти точно повторяли колебания числа самоубийств через повешение и удушение. Сложно поверить, что это связано, но цифры говорят, что это возможно.

Огромное количество выводов делается на основе корреляций, которые являются лишь совпадениями.

Особенно тяжелыми такие выводы могут быть в медицине. Даже сейчас, из-за отсутствия понимания первопричин болезнями часто принято называть то, что фактически является лишь симптомами.

В качестве примера можно привести историю, о том, как в диетах возник страх животных жиров. Профессор физиологии Ангел Кис 1951 года отправился в Европу искать причину болезней сердца. По статистике, в Неаполе (Италия) в то время было меньше всего людей, страдающих от сердечно-сосудистых заболеваний. Он решил проанализировать их рацион.

В Неаполе Кис заметил, что местные жители едят на обед макароны, простую пиццу, овощи с оливковым маслом, на десерт фрукты, много вина и совсем мало мяса. Дополнительно был проанализирован рацион жителей других стран, в том числе США, где традиционно потребляют много животных жиров. Оказалось, что смертность мужчин в США выше, чем в Японии. При этом он не учитывал, что в Японии традиционно употребляют меньше сахара и порции еды намного меньше. Вывод Киса был логичен и однозначен – отсутствие мяса в рационе помогает избежать сердечных приступов.

Благодаря талантам убеждения Киса эта теория прочно вошла в сознание людей. К советам Киса прислушивался даже личный врач президента Эйзенхаура. А уже в 1961 году его идеи вошли в доклад Американской ассоциации по изучению сердечно-сосудистых заболеваний. Журнал Times в этом же году поместил Киса на обложку назвав его «самым влиятельным экспертом по питанию в XXI веке».

В настоящий момент более миллиона научных статей ссылаются на выводы Киса, а вред мяса достаточно прочно вошел в сознание людей. При этом макароны, растительное масло и маргарин стали вполне полезными продуктами.

В противовес этой теории существует как минимум 6 клинических испытаний, которые опровергают связь между заболеваниями сердца и потреблением животных жиров [1, с. 50-51]. При этом замещение животных жиров на растительные, подвергшиеся промышленной обработке, привело к росту риска смерти.

Существует и другая грань в работе с большими данными. Их количество и сложность. Существующая модель «Искусственного интеллекта» – это поиск корреляций и самообучение на их основе. Как правило модели не ищут причины таких связей и предполагают, что «корреляция важнее причинности».

Замечательный пример того, как понимание причин может привести к выдающимся результатом – это открытие бозона Хиггса [2].

Ключевое действие эксперимента происходило в кольце коллайдера длиной 27 км. Разгоняя на встречу друг другу элементарные частицы до скорости света ученые получали более 600 миллионов столкновений в секунду (!). Более 150 миллионов датчиков давали 150 эксабайт информации в сутки. Попробуем представить эти цифры. Один эксабайт – это миллиард гигабайт. Суммарный объем данных всеми устройствами мира вместе взятыми составляем 2.5 эксабайта в сутки. Представьте, андронный коллайдер выдавал в 75 раз больше данных, чем весь остальной мир. ОЧЕНЬ-ОЧЕНЬ-ОЧЕНЬ жестокая задача для команды Data-Science.
Как же они справились?
Всё дело в том, что перед начало экспериментов уже существовала внятная и подробная теоретическая модель, которая позволяла понимать где надо искать. Таким образом полезными данными являлись лишь 0,00001% от общего потока. Учёные знали где искать и что искать.

Вывод ясен – разные данные не равны друг другу по значимости. Чтобы вы не искали или не изучали, важно руководствоваться теорией или как минимум пониманием процессов, которая спасет от трагических случайных выводов и убережёт от поиска бриллиантов на свалке данных.

По мотивам идей из книг:

[1] Клетка на диете, Джозеф Меркола. Научное открытие о влиянии жиров на мышление, физическую активность и обмен веществ.
[2] Масштаб, Джеффри Уэст. Универсальные законы роста, инноваций, устойчивости и темпов жизни организмов, городов, экономических систем и компаний.