Как вирус Эболы научил нас работать с данными о заражениях, а мы забыли все его уроки
Мы стремимся принимать всё больше решений на основе данных.
Когда происходят события вроде гремящей сейчас пандемии Covid-19, ещё важнее решать правильно. Но мы часто ошибаемся из-за неверных данных. Пример этого — борьба с вирусом Эболы в 2014 году. И сейчас, глядя на анализ вокруг коронавируса, мне кажется, что мы не выучили ни одного из тех уроков.
Меня зовут Роман Нестер, и я занимаюсь большими данными последние 10 лет. С партнёрами мы сделали стартап Segmento, который использует большие данные в рекламе. Сегодня я развиваю новую магистратуру по управлению продуктом и маркетингом на основе данных в НИУ ВШЭ. Я убеждён, что за последние годы мы получили в наши руки крутейшие инструменты и море данных, чтобы действовать качественнее и принимать более точные решения. Но этого не происходит.
Эбола
Я хочу привести ряд цитат из книги шведского статистика и врача, доктора наук Ганса Рослинга. Используя её, мы в ВШЭ сделали отдельный курс по решениям, основанным на данных. И вот сейчас, когда интернет взорвался прогнозами и анализом данных, меня осенило — ведь это всё очень похоже на то, уже происходило шесть лет назад. Рослинг был непосредственным участником тех событий.
В 2014 в Либерии вспыхнула эпидемия Эболы. Это заразная болезнь с высокой смертностью, убивающая каждого второго. Страна не могла справиться с ней, и в Африку вылетели международные профессионалы. Все тогда только и говорили про «экспоненту» (теперь, благодаря covid-19, про неё узнал любой обыватель) — именно так выглядели графики заражения.
В стране ввели карантин, закрыли учреждения и ввели беспрецедентные для Западной Африки ограничения и меры по улучшению гигиены. Несмотря ни на что, графики по количеству заражённых росли. Их публиковали в регулярных релизах, и за ними стал следить весь мир. Кажется, принятые меры не работали.
Рослинг решил разобраться, в чём дело. Борьбой с Эболой занимались американское федеральное агентство CDC (Centers for Disease Control and Prevention) и WHO (ВОЗ). Именно они публиковали данные о «заболевших», называя их при этом «подозрение на заболевание» (suspected cases).
Например, на графики умерших от Эболы попадали те пациенты, кто попал в больницу с подозрением на Эболу, но затем умерли от других причин. Чем больше увеличивался страх от болезни, тем больше пациентов поступали в больницы «с подозрением» (suspected) и учитывались в главной статистике «заражённых» (total cases).
Данные
Доктор взял в министерстве Здравоохранения Либерии данные по подтвержденным случаям. Оказалось, для окончательного определения Эболы у пациентов, поступавших «с подозрением»? брали кровь и рассылали в четыре лаборатории. Результаты их анализа приходили в таблицах Excel.
Но дальше не было никого ответственного за сведение этих таблиц! Всех интересовало только общее число, как много новых «подозреваемых» продолжает поступать в больницы. Рослинг взял данные из четырёх лабораторий, очистил их от дублей и свёл воедино.
Люди в Либерии радикально изменили поведение. Они перестали здороваться за руку, избегали контакта, закрылись магазины и общественные места. И оказалось, что в итоге реальные заражения и смерти от Эболы пошли на спад! Но при этом испуганные люди продолжали при первых опасениях бежать в больницы. И попадали в статистику всё новых «заражённых»!
«Стратегия сработала, но об этом вообще никто не знал до моего анализа данных. Это придало нам сил и очень вдохновило нас!», — вспоминает Рослинг.
Страх
Он отправил свой график в ВОЗ и CDC. К его удивлению, CDC отказались публиковать его в очередном релизе! Бюро настояло на публикации графика по прежней ошибочной методике с пугающим растущим количеством «госпитализированных с подозрением на Эболу». И тут Рослинг понял — всё дело в том, что CDC считали, что они должны поддерживать ощущение срочной необходимости среди тех, кто отвечал за выделение ресурсов.
Данные помогли понять, насколько опасен вирус Эболы. Именно благодаря экспоненциальным графикам, которые он получил, Рослинг бросил все дела и приехал в Либерию. Однако как только появились данные о том, что вирус удается победить, их публиковать попросту не стали!
Такое избирательное использование и публикация данных лишает запрос на точность их сбора и обработки всякого смысла! К отчётам CDC по соседней Сьерра-Леоне затем предъявила претензии и сама ВОЗ, увидев безумные «пики» в статистике из-за сочетания разнородных баз. CDC изменили методику учёта. Однако по Либерии до сих пор все заболевшие и подозреваемые на болезнь посчитаны «в кучу» — колоссальная ошибка по прежнему на виду.
Урок, который мы не усвоили
«Нам нужно создать страх» — это слова бывшего вице-президента США Ал Гора. Он сказал их Рослингу, когда попросил того проиллюстрировать своими графиками опасность выбросов СО2 для своего очередного семинара.
При этом Гор отказался от предложенных Рослингом альтернативных графиков, которые показывали положительные прогнозы и улучшения. Шведский профессор настаивал на более объективной картине, но только преувеличение опасности могло дать Ал Гору ожидаемый эффект. Рослинг пошёл на принцип отказался от помощи одному из сильнейших мира сего.
К сожалению, мы никогда не узнаем, что сказал бы Рослинг, глядя на безумие в медиа сегодня — когда каждый второй журналист раскручивает панику все сильнее, привлекая на свою сторону новые непроверенные данные и рисуя новые пугающие графики. Несмотря на все оговорки учёных и институтов о том, что мы можем очень сильно ошибаться сейчас, когда смотрим на эти цифры! И несмотря на их напоминания, что многие данные ещё не очищены и сбивают нас с толку — это не останавливает никого. Мир продолжает крутить, паника и данные подпитывают её.
Опасность в том, что многомиллионная аудитория изучает графики на основе экстраполяций из неточных данных, и у них складывается иллюзия осведомленности. Люди не изучают природу данных, не проверяют их источников. Графики и выводы путешествуют из публикации в публикацию, уже без исходных оговорок, списков допущений и альтернативных сценариев. Пресса избирательно сохраняет только яркие провокационные картинки и выводы, привлекающие внимание, убирая все лишнее и двусмысленное.
Это не значит, что мы должны игнорировать гибель людей и пренебрегать опасностью. Но нам нужно быть аккуратнее и объективнее в том, как именно мы действуем. И точно — не позволять данным вызывать панику.
Ханс Рослинг умер в 2017 году от рака. От него осталась великолепная книга Factfulness, горячим поклонником которой я стал. Мы испольузем её теперь в магистратуре как часть нашего курса. Я хочу поделиться главными выводами, которые мы обычно закрепляем в финале курса:
- Вдохните. Когда ваш инстинкт срочно действовать включается, ваша способность к анализу исчезает. Просите больше данных, проверяйте их.
- Избегайте релевантных, но неточных данных.
- Опасайтесь «пророков» и не полагайтесь на однозначные сценарии развития событий. Не оставляйте себе для анализа только лучший или только самый худший вариант
- Опасайтесь радикальных шагов — оцените возможный вред. Менее драматичные действия чаще оказываются более эффективными.
Источники:
Factfulness: Ten Reasons We’re Wrong About the World--and Why Things Are Better Than You Think, ISBN-10: 1250107814
CDC[3]. «Ebola Outbreak in West Africa—Reported Cases Graphs.» Centers for Disease Control and Prevention, 2014. gapm.io/xcdceb17.
WHO[3]. WHO Ebola Response Team. «Ebola Virus Disease in West Africa—The First 9 Months of the Epidemic and Forward Projections.» New England Journal of Medicine 371 (October 6, 2014): 1481–95. gapm.io/xeboresp.
Любопытно посмотреть на подобный анализ данных о COVID-19.
Сейчас трудно увидеть, чтобы кто-то всерьёз занимался разбором данных COVID-19 - все борются с волной заболеваний, вводят карантины - словом, действуют. Попытки сказать "Давайте подождём, разберёмся" вызывают вполне обоснованный негатив. Думаю, подобный разбор мы можем увидеть только спустя приличное время, когда всё уляжется.
Отличная статья. Спасибо, Роман.
Ну не все же на борьбе с болезнью. Большинство чиновников (и подозреваю, что почти все работники, которые от имени и по поручению государства занимаются статистикой) сидят дома. Можно даже вручную считать в табличке, сколько заболело, сколько лечится, сколько вылечилось и т.п. Но эта работа никому не нужна, т.к. ... да как в этой статье, большинство заинтересовано в чём угодно, только не в установлении объективной картины. Уж больно момент подходящий, чтобы половить рыбку в мутной воде.
Я не склонен считать, что дело тут в зломыслии. Рослинг пишет как раз о человеческом инстинкте "Срочно делать", вместо "Разбираться, анализировать", мы так устроены.
И потом, вряд ли вы увидите кого-то из чиновников, внезапно встающего и заявляющего "Не буду я вводить ограничения! А вы откуда эти данные взяли? Я не согласен, давайте разбираться", его же сразу съедят, и в том числе избиратели.
Делают одни, но пусть разбираются другие. Понятно, что каждый действует исходя из своих интересов. У чиновников это (ограничение своих рисков) просто единственный рецепт выживания.
Швеция же так сделала, не вводя карантин.
Посмотрите публикации Александра Евсина в фейсбуке.
Так анализ делают одни люди, а борьбу другие. Проанализировать и стандартизировать систему данных что мешает?
Это срочно нужно предлагать правительствам.
В то же самое время есть подозрения, что данные по заболевшим и умершим в России сильно занижаются. Врачи, рассказывающие из первых уст, что людей поступает гигантское количество и умирает очень много, никак не вяжется с официальной статистикой.
Капля здравого смысла в потоке хаоса и паники. Спасибо
Спасибо за оценку.
Опасаться радикальных шагов это звучит очень красиво и рационально, особенно если приправить ссылками на всякие исследования про когнитивные искажения и прочий научпоп.
Проблема только в том, что у нас нет(и не планируется) данных, а решение нужно принимать уже сейчас. В условиях неопределенности единственое правильное решение — радикальное, так как цена ошибки неизвестна и может быть огромной(а урон от этого радикального решения хотя бы примерно понятен).
Данные - есть, а вот процессам их организации и очистки уделяется меньше времени, чем медиа тратят на пропаганду. "Примерная понятность" тоже может быть очень опасной вещью.
Займитесь этими данными, у вас есть авторитет. Предложите что-нибудь ответственным людям. Сделаете мир лучше же.
Я действительно думаю, как это сделать.
Отмечу, что когда я писал эту статью, вышел материал в "Коммерсанте". Аналогии напрашиваются сами собой.
https://habr.com/ru/post/494896/
По-моему близкий вам автор.
Пытается корректно анализировать данные.
Спасибо, Андрей. Илью знаю лично и отношусь к нему с большим уважением. При этом, я, в отличие от Ильи, человек эмоциональный и не готов выступить с настолько фундаментальными опровержениями - для этого нужно действительно глубокого погрузиться в вопрос с множества точек зрения.
Пока я писал эту статью, вышел интересный материал про "тактику устрашения", применяемую в Москве.