{"id":14284,"url":"\/distributions\/14284\/click?bit=1&hash=82a231c769d1e10ea56c30ae286f090fbb4a445600cfa9e05037db7a74b1dda9","title":"\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043d\u0430 \u0442\u0430\u043d\u0446\u044b \u0441 \u0441\u043e\u0431\u0430\u043a\u0430\u043c\u0438","buttonText":"","imageUuid":""}

Что такое темные данные и почему они важны

Каждый день мы перерабатываем огромные объемы контента, делая прогнозы и принимая решения. Чтобы просто одеться по погоде, выбрать подходящее кафе для делового завтрака или рассчитать траекторию полета космического корабля надо учесть много факторов и собрать максимум информации. Последствия ошибки в этих примерах будут разительно отличаться, но суть одна — если дело пошло не так, значит, в процессе вы что-то упустили.

Тёмные данные. Практическое руководство по принятию правильных решений в мире недостающих данных Альпина Паблишер

Основывать стратегию на доступной информации просто, но как учесть то, чего мы не видим? Об этом рассказывает президент Британского статистического общества Дэвид Хэнд в своей книге «Тёмные данные. Практическое руководство по принятию правильных решений в мире недостающих данных», о которой я хочу сегодня рассказать.

Для начала разберемся, что такое данные. Есть много концепций, связывающих понятия «данных», «информации» и «знаний», но для простоты можно считать данными все сведения, которые можно обрабатывать, хранить и передавать. Когда данные накапливаются в голове или в облачном хранилище, категорируются или подсчитываются, то становятся информацией о процессах, явлениях или предметах. Если проще, когда с данными что-то происходит, то они становятся информацией. Например, цифры 1, 2, 3, 6, 7, 8 и знак нуля — это данные, но составленные в правильном порядке они превращаются в информацию, например, в номер Пулковской обсерватории: +7 (812) 363-72-07

Теперь рассмотрим, что такое «тёмные данные». Само это понятие возникло по аналогии с другим физическим термином — темной материей. Минимум треть Вселенной состоит из этой субстанции, которая при взаимодействии со светом или электромагнитным излучением поглощает его, оставаясь невидимой. Так вот, темные данные — как черные дыры. Их не видно, самостоятельно они не обнаруживаются, но оказывают существенное влияние на принятые решения. Если вы что-то не видите, это не значит, что этого не существует. Может казаться, что такие «дыры» могут возникать только из-за человеческого фактора, когда мы сами собрали недостаточно данных, а значит, не учли все вероятности исхода. Но это только одна из разновидностей темных данных, которых в книге выделено пятнадцать. Оказывается, информация может прятаться, искажаться, выходить далеко за пределы исследуемого нами предмета, попросту обобщаться или базово отсутствовать.

Можно ли обнаружить темные данные? Да, если проследить путь их возникновения. Для этого проанализируем стратегию сбора информации.

Если мы собираем сведения при помощи опросов, то руководствуемся ответами большинства. Например, мы хотим узнать какие часы работы супермаркета будут удобнее всего. Проведя опрос жителей конкретного района, мы получим ответы только тех, кто прошел телефонное интервью или заполнил анкету на выходе из магазина. При этом не собранные голоса других жителей окрестности окажутся в области темных данных. На что это влияет? В случае с супермаркетом неверно выбранная стратегия работы принесет предприятию убытки. В случае с предвыборной кампанией — провал кандидата в президенты.

Однако финансовые потери несопоставимы с человеческими катастрофами. Так темные данные тип 3, о которых мы не знаем, что они существуют и тип 2 — выборочные факты привели к взрыву космического челнока NASA в 1986 году. Спустя минуту полета на высоте 15 км погибли все члены экипажа. В «черной дыре» анализа оказалась информация о ряде пробных запусков, сигнализирующих о критическом состоянии уплотнительных колец на высоких температурах, которые и стали причиной аварии.

Учитывая, что собрать абсолютно все данные невозможно, риск появления неучтенных, темных данных есть всегда. Но это не должно пугать, ведь знание о том, что они существуют уже ставит вас в выигрышную позицию. А дальше — дело особой техники связывания имеющихся вводных с отсутствующими, но об этом лучше сами прочитайте в книге Дэвида Хэнда.

Альпина Паблишер
0
Комментарии
-3 комментариев
Раскрывать всегда