Как BigData плодит ложные закономерности
При работе с BigData стоит учитывать, что какая-то часть выявляемых закономерностей являются ошибочными. Чтобы лучше находить эти недостоверные зависимости, лучше всего отталкиваться от того, какими они бывают.
Ложные корреляции
Есть такая занятная книга "Ложные корреляции". В ней указываются забавные и при этом однозначные зависимости между различными данными. Например, между потреблением моцареллы и числом докторских степеней. Или между количеством фильмов с Николасом Кейджем и числом утонувших в бассейне.
Эти совпадения - просто отражение новой реальности. Данных становится так много, что какие-то показывают наличие статистически достоверной закономерности между абсолютно независимыми событиями.
Например, нейрогенетика с шумом и помпой недавно выявила гены, отвечающие за шизофрению и гениальность, чтобы позже тихо признаться, что это было только случайное совпадение.
Когда бизнес начинает работать с BigData, данных становится всё больше, оттого чаще начинают проявляться неожиданные зависимости, по факту оказывающиеся просто случайными совпадениями. Тем проще при моделировании бизнеса ошибиться и учесть те факторы, которые на бизнес не влияют. Например, решить, что объём производства мёда в США прямо пропорционально влияет на число разводов в Южной Каролине.
Как аисты приносят детей
В Швеции есть традиция: если аист заводит у тебя на доме гнездо, за ним полагается ухаживать. Об этом шведы вели статистику 73 года подряд, пока кому-то не пришло в голову в шутку сравнить эти данные с рождаемостью.
Анализ показал, что имеется однозначная зависимость.
Исследователи нашли этому казусу вполне разумное обоснование. Оказалось, что на статистику по аистам и рождаемости оказывает сильнейшее влияние изменение экологической обстановки и уровня жизни населения. Шведы стали лучше жить, транспорт стал намного доступнее, потому молодые семьи активно перебирались в уютные и спокойные дома в пригородах городов, на крышах которых и появлялось всё больше и больше аистов.
Этот случай описывает второй тип ложных закономерностей: когда зависимость двух данных вызвана влиянием на них какого-то третьего.
Я не говорю, что такие закономерности следует избегать при прогнозировании, наоборот. Главное: не делать вывод, что аисты приносят детей.
Электрические сны лосося Фолл-крика
В попытках лучше понять мир люди делают очень странные исследования. Так, американские учёные положили лосося в томограф, показывали ему фотографии людей и фиксировали активность его головного и спинного мозга. Рыба не просто реагировала на фотографии, но и практически правильно оценивала эмоции людей.
Что было особенно удивительно, так как лосось был мёртвый.
Выяснилось, что на результаты исследования повлияла собственная деятельность томографа.
Случай показывает, как результаты анализа искажаются из-за погрешностей в методике, качества сбора информации или даже инструмента анализа.
Вот и получаются ложные зависимости третьего рода - вызванные ошибками в инструментарии.
Как с этим бороться? Да как и раньше. Проверять и перепроверять.
Резюмирую
В изучении BigData остерегайтесь следующих трёх типов ложных закономерностей:
- случайные совпадения, вызванные законом больших чисел. Помните: чем значительней массивы информации, тем проще найти зависимости между потреблением моцареллы и числом докторских степеней;
- параллельные совпадения, вызванные влиянием на два ряда третьего, неучтённого фактора. Иначе будете утверждать, что аисты приносят детей;
- искусственные совпадения, вызванные огрехами в методологии, в источниках данных или в технологиях их сбора.
Если статья понравилась, а тема управления и финансов, менеджмента и манежмента, успешных и провальных кейсов в реальном бизнесе вам интересна, подписывайтесь на мой телеграм-канал "Тру финансы".