{"id":14274,"url":"\/distributions\/14274\/click?bit=1&hash=fadd1ae2f2e07e0dfe00a9cff0f1f56eecf48fb8ab0df0b0bfa4004b70b3f9e6","title":"\u0427\u0435\u043c \u043c\u0443\u0440\u0430\u0432\u044c\u0438\u043d\u044b\u0435 \u0434\u043e\u0440\u043e\u0436\u043a\u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0442 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0438\u0441\u0442\u0430\u043c?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"6fbf3884-3bcf-55d2-978b-295966d75ee2"}

Что общего между Data Science и бомжом на свалке?

Данные играют все более фундаментальную роль в любом бизнесе. Data-science, Data-driven, Data-based – сложно поверить, что все эти слова прочно вошли в обиход только в последние 5-10 лет.

Скорость роста числа данных поражает. Причина в революции информационных технологий. Маленький iPad обладает большей мощностью, чем самый мощный компьютер мира за 15 млн долларов всего 25 лет назад. Число устройств подключенных к интернету в 2 раза больше населения Земли. При этом на каждого человека приходится больше 9 кв.м. экранов.

Общая парадигма отношения к данным в бизнесе – чем больше данных, тем лучше. Надо только измерять, контролировать и находить корреляции. А там уж и ответы на все вопросы. Основная проблема подхода в том, что различить корреляцию и причинно-следственную связь бывает очень сложно.

Например, с 1999 по 2010 г. объем расходов на научные исследования в США почти точно повторяли колебания числа самоубийств через повешение и удушение. Сложно поверить, что это связано, но цифры говорят, что это возможно.

Огромное количество выводов делается на основе корреляций, которые являются лишь совпадениями.

Особенно тяжелыми такие выводы могут быть в медицине. Даже сейчас, из-за отсутствия понимания первопричин болезнями часто принято называть то, что фактически является лишь симптомами.

В качестве примера можно привести историю, о том, как в диетах возник страх животных жиров. Профессор физиологии Ангел Кис 1951 года отправился в Европу искать причину болезней сердца. По статистике, в Неаполе (Италия) в то время было меньше всего людей, страдающих от сердечно-сосудистых заболеваний. Он решил проанализировать их рацион.

В Неаполе Кис заметил, что местные жители едят на обед макароны, простую пиццу, овощи с оливковым маслом, на десерт фрукты, много вина и совсем мало мяса. Дополнительно был проанализирован рацион жителей других стран, в том числе США, где традиционно потребляют много животных жиров. Оказалось, что смертность мужчин в США выше, чем в Японии. При этом он не учитывал, что в Японии традиционно употребляют меньше сахара и порции еды намного меньше. Вывод Киса был логичен и однозначен – отсутствие мяса в рационе помогает избежать сердечных приступов.

Благодаря талантам убеждения Киса эта теория прочно вошла в сознание людей. К советам Киса прислушивался даже личный врач президента Эйзенхаура. А уже в 1961 году его идеи вошли в доклад Американской ассоциации по изучению сердечно-сосудистых заболеваний. Журнал Times в этом же году поместил Киса на обложку назвав его «самым влиятельным экспертом по питанию в XXI веке».

В настоящий момент более миллиона научных статей ссылаются на выводы Киса, а вред мяса достаточно прочно вошел в сознание людей. При этом макароны, растительное масло и маргарин стали вполне полезными продуктами.

В противовес этой теории существует как минимум 6 клинических испытаний, которые опровергают связь между заболеваниями сердца и потреблением животных жиров [1, с. 50-51]. При этом замещение животных жиров на растительные, подвергшиеся промышленной обработке, привело к росту риска смерти.

Существует и другая грань в работе с большими данными. Их количество и сложность. Существующая модель «Искусственного интеллекта» – это поиск корреляций и самообучение на их основе. Как правило модели не ищут причины таких связей и предполагают, что «корреляция важнее причинности».

Замечательный пример того, как понимание причин может привести к выдающимся результатом – это открытие бозона Хиггса [2].

Ключевое действие эксперимента происходило в кольце коллайдера длиной 27 км. Разгоняя на встречу друг другу элементарные частицы до скорости света ученые получали более 600 миллионов столкновений в секунду (!). Более 150 миллионов датчиков давали 150 эксабайт информации в сутки. Попробуем представить эти цифры. Один эксабайт – это миллиард гигабайт. Суммарный объем данных всеми устройствами мира вместе взятыми составляем 2.5 эксабайта в сутки. Представьте, андронный коллайдер выдавал в 75 раз больше данных, чем весь остальной мир. ОЧЕНЬ-ОЧЕНЬ-ОЧЕНЬ жестокая задача для команды Data-Science.
Как же они справились?
Всё дело в том, что перед начало экспериментов уже существовала внятная и подробная теоретическая модель, которая позволяла понимать где надо искать. Таким образом полезными данными являлись лишь 0,00001% от общего потока. Учёные знали где искать и что искать.

Вывод ясен – разные данные не равны друг другу по значимости. Чтобы вы не искали или не изучали, важно руководствоваться теорией или как минимум пониманием процессов, которая спасет от трагических случайных выводов и убережёт от поиска бриллиантов на свалке данных.

По мотивам идей из книг:

[1] Клетка на диете, Джозеф Меркола. Научное открытие о влиянии жиров на мышление, физическую активность и обмен веществ.
[2] Масштаб, Джеффри Уэст. Универсальные законы роста, инноваций, устойчивости и темпов жизни организмов, городов, экономических систем и компаний.

0
4 комментария
Arnil Feran

Одинаково пахнут? 🤔

Ответить
Развернуть ветку
Kesha Pazzy

У человека тоже самое. Такая же проблема: огромный обьем информации.
Как раз для этого и нужен аналитический ум человеку. 
Который структурирует, выделит нужное, откинет лишнее, свяжет между собой в логическую структуру. 

Ответить
Развернуть ветку
Артурас Лапинскас

Странные случайности... вспомнился скандал с оскорблением евреев в каптче какого-то банка.

Ответить
Развернуть ветку
Valentin Repesciuc

Познавательно, спасибо:)

Ответить
Развернуть ветку
1 комментарий
Раскрывать всегда