Что общего между Data Science и бомжом на свалке?
Данные играют все более фундаментальную роль в любом бизнесе. Data-science, Data-driven, Data-based – сложно поверить, что все эти слова прочно вошли в обиход только в последние 5-10 лет.
Скорость роста числа данных поражает. Причина в революции информационных технологий. Маленький iPad обладает большей мощностью, чем самый мощный компьютер мира за 15 млн долларов всего 25 лет назад. Число устройств подключенных к интернету в 2 раза больше населения Земли. При этом на каждого человека приходится больше 9 кв.м. экранов.
Общая парадигма отношения к данным в бизнесе – чем больше данных, тем лучше. Надо только измерять, контролировать и находить корреляции. А там уж и ответы на все вопросы. Основная проблема подхода в том, что различить корреляцию и причинно-следственную связь бывает очень сложно.
Например, с 1999 по 2010 г. объем расходов на научные исследования в США почти точно повторяли колебания числа самоубийств через повешение и удушение. Сложно поверить, что это связано, но цифры говорят, что это возможно.
Огромное количество выводов делается на основе корреляций, которые являются лишь совпадениями.
Особенно тяжелыми такие выводы могут быть в медицине. Даже сейчас, из-за отсутствия понимания первопричин болезнями часто принято называть то, что фактически является лишь симптомами.
В качестве примера можно привести историю, о том, как в диетах возник страх животных жиров. Профессор физиологии Ангел Кис 1951 года отправился в Европу искать причину болезней сердца. По статистике, в Неаполе (Италия) в то время было меньше всего людей, страдающих от сердечно-сосудистых заболеваний. Он решил проанализировать их рацион.
В Неаполе Кис заметил, что местные жители едят на обед макароны, простую пиццу, овощи с оливковым маслом, на десерт фрукты, много вина и совсем мало мяса. Дополнительно был проанализирован рацион жителей других стран, в том числе США, где традиционно потребляют много животных жиров. Оказалось, что смертность мужчин в США выше, чем в Японии. При этом он не учитывал, что в Японии традиционно употребляют меньше сахара и порции еды намного меньше. Вывод Киса был логичен и однозначен – отсутствие мяса в рационе помогает избежать сердечных приступов.
Благодаря талантам убеждения Киса эта теория прочно вошла в сознание людей. К советам Киса прислушивался даже личный врач президента Эйзенхаура. А уже в 1961 году его идеи вошли в доклад Американской ассоциации по изучению сердечно-сосудистых заболеваний. Журнал Times в этом же году поместил Киса на обложку назвав его «самым влиятельным экспертом по питанию в XXI веке».
В настоящий момент более миллиона научных статей ссылаются на выводы Киса, а вред мяса достаточно прочно вошел в сознание людей. При этом макароны, растительное масло и маргарин стали вполне полезными продуктами.
В противовес этой теории существует как минимум 6 клинических испытаний, которые опровергают связь между заболеваниями сердца и потреблением животных жиров [1, с. 50-51]. При этом замещение животных жиров на растительные, подвергшиеся промышленной обработке, привело к росту риска смерти.
Существует и другая грань в работе с большими данными. Их количество и сложность. Существующая модель «Искусственного интеллекта» – это поиск корреляций и самообучение на их основе. Как правило модели не ищут причины таких связей и предполагают, что «корреляция важнее причинности».
Замечательный пример того, как понимание причин может привести к выдающимся результатом – это открытие бозона Хиггса [2].
Ключевое действие эксперимента происходило в кольце коллайдера длиной 27 км. Разгоняя на встречу друг другу элементарные частицы до скорости света ученые получали более 600 миллионов столкновений в секунду (!). Более 150 миллионов датчиков давали 150 эксабайт информации в сутки. Попробуем представить эти цифры. Один эксабайт – это миллиард гигабайт. Суммарный объем данных всеми устройствами мира вместе взятыми составляем 2.5 эксабайта в сутки. Представьте, андронный коллайдер выдавал в 75 раз больше данных, чем весь остальной мир. ОЧЕНЬ-ОЧЕНЬ-ОЧЕНЬ жестокая задача для команды Data-Science.
Как же они справились?
Всё дело в том, что перед начало экспериментов уже существовала внятная и подробная теоретическая модель, которая позволяла понимать где надо искать. Таким образом полезными данными являлись лишь 0,00001% от общего потока. Учёные знали где искать и что искать.
Вывод ясен – разные данные не равны друг другу по значимости. Чтобы вы не искали или не изучали, важно руководствоваться теорией или как минимум пониманием процессов, которая спасет от трагических случайных выводов и убережёт от поиска бриллиантов на свалке данных.
По мотивам идей из книг:
[1] Клетка на диете, Джозеф Меркола. Научное открытие о влиянии жиров на мышление, физическую активность и обмен веществ.
[2] Масштаб, Джеффри Уэст. Универсальные законы роста, инноваций, устойчивости и темпов жизни организмов, городов, экономических систем и компаний.
Но данные могут стать поводом для проверки.
Вы можете уже завтра уволить восемь менеджеров, а продажи и лояльность клиентов от этого только вырастут. При этом вы еще 2,8 млн руб/год на ФОТ (фонд оплаты труда) сэкономите. Как это возможно? Сейчас расскажу.
Под закрытие могут попасть только неактивированные кредитки — по которым не проводилось расходных операций, пояснили в компании.
Контент для конкурентов или почему мы обсуждаем с близкими далеких.
До конца марта 2025 года.
Одинаково пахнут? 🤔
У человека тоже самое. Такая же проблема: огромный обьем информации.
Как раз для этого и нужен аналитический ум человеку.
Который структурирует, выделит нужное, откинет лишнее, свяжет между собой в логическую структуру.
Странные случайности... вспомнился скандал с оскорблением евреев в каптче какого-то банка.
Познавательно, спасибо:)