Как вирус Эболы научил нас работать с данными о заражениях, а мы забыли все его уроки

Мы стремимся принимать всё больше решений на основе данных.

Когда происходят события вроде гремящей сейчас пандемии Covid-19, ещё важнее решать правильно. Но мы часто ошибаемся из-за неверных данных. Пример этого — борьба с вирусом Эболы в 2014 году. И сейчас, глядя на анализ вокруг коронавируса, мне кажется, что мы не выучили ни одного из тех уроков.

Меня зовут Роман Нестер, и я занимаюсь большими данными последние 10 лет. С партнёрами мы сделали стартап Segmento, который использует большие данные в рекламе. Сегодня я развиваю новую магистратуру по управлению продуктом и маркетингом на основе данных в НИУ ВШЭ. Я убеждён, что за последние годы мы получили в наши руки крутейшие инструменты и море данных, чтобы действовать качественнее и принимать более точные решения. Но этого не происходит.

Эбола

Я хочу привести ряд цитат из книги шведского статистика и врача, доктора наук Ганса Рослинга. Используя её, мы в ВШЭ сделали отдельный курс по решениям, основанным на данных. И вот сейчас, когда интернет взорвался прогнозами и анализом данных, меня осенило — ведь это всё очень похоже на то, уже происходило шесть лет назад. Рослинг был непосредственным участником тех событий.

Билл Гейтс называл Рослинга своим уважаемым другом, а его книгу — одной из своих любимых
Билл Гейтс называл Рослинга своим уважаемым другом, а его книгу — одной из своих любимых

В 2014 в Либерии вспыхнула эпидемия Эболы. Это заразная болезнь с высокой смертностью, убивающая каждого второго. Страна не могла справиться с ней, и в Африку вылетели международные профессионалы. Все тогда только и говорили про «экспоненту» (теперь, благодаря covid-19, про неё узнал любой обыватель) — именно так выглядели графики заражения.

В стране ввели карантин, закрыли учреждения и ввели беспрецедентные для Западной Африки ограничения и меры по улучшению гигиены. Несмотря ни на что, графики по количеству заражённых росли. Их публиковали в регулярных релизах, и за ними стал следить весь мир. Кажется, принятые меры не работали.

Рослинг решил разобраться, в чём дело. Борьбой с Эболой занимались американское федеральное агентство CDC (Centers for Disease Control and Prevention) и WHO (ВОЗ). Именно они публиковали данные о «заболевших», называя их при этом «подозрение на заболевание» (suspected cases).

Например, на графики умерших от Эболы попадали те пациенты, кто попал в больницу с подозрением на Эболу, но затем умерли от других причин. Чем больше увеличивался страх от болезни, тем больше пациентов поступали в больницы «с подозрением» (suspected) и учитывались в главной статистике «заражённых» (total cases).

66-летний Рослинг за работой в Либерии​
66-летний Рослинг за работой в Либерии​

Чем дальше, тем больше эти растущие кривые «заболевших» пугали нас и весь мир, тем меньше мы понимали реальное количество подтвердившихся случаев. Если ты не можешь оценить прогресс, то не можешь и понять, работают ли твои меры по сдерживанию.

Ганс Рослинг

Данные

Доктор взял в министерстве Здравоохранения Либерии данные по подтвержденным случаям. Оказалось, для окончательного определения Эболы у пациентов, поступавших «с подозрением»? брали кровь и рассылали в четыре лаборатории. Результаты их анализа приходили в таблицах Excel.

Но дальше не было никого ответственного за сведение этих таблиц! Всех интересовало только общее число, как много новых «подозреваемых» продолжает поступать в больницы. Рослинг взял данные из четырёх лабораторий, очистил их от дублей и свёл воедино.

Когда проблема кажется срочной, не нужно кричать «Волки!». Нужно организовать данные. Ко всеобщему удивлению, мы увидели, что количество подтвердившихся после подозрения случаев достигло пика две недели назад и теперь падало. Но в те же самые дни количество госпитализаций с подозрением на Эболу продолжало драматически увеличиваться!

Ганс Рослинг

Люди в Либерии радикально изменили поведение. Они перестали здороваться за руку, избегали контакта, закрылись магазины и общественные места. И оказалось, что в итоге реальные заражения и смерти от Эболы пошли на спад! Но при этом испуганные люди продолжали при первых опасениях бежать в больницы. И попадали в статистику всё новых «заражённых»!

«Стратегия сработала, но об этом вообще никто не знал до моего анализа данных. Это придало нам сил и очень вдохновило нас!», — вспоминает Рослинг.

Страх

Он отправил свой график в ВОЗ и CDC. К его удивлению, CDC отказались публиковать его в очередном релизе! Бюро настояло на публикации графика по прежней ошибочной методике с пугающим растущим количеством «госпитализированных с подозрением на Эболу». И тут Рослинг понял — всё дело в том, что CDC считали, что они должны поддерживать ощущение срочной необходимости среди тех, кто отвечал за выделение ресурсов.

Как вирус Эболы научил нас работать с данными о заражениях, а мы забыли все его уроки

Я понимаю, что ими двигали благие намерения. Но это значит, что деньги и другие ресурсы направлялись не туда! Ещё серьёзнее то, что это влияло на доверие людей к эпидемиологическим данным. Компания, которая решает проблему, не должна решать, какие данные ей публиковать, а какие — нет. Прыгуну в длину не разрешено измерять длину своего прыжка — это делают судьи. Люди «на земле» всегда будут хотеть больше средств, больше ресурсов (ремарка — ежегодный бюджет CDC — больше 10 миллиардов долларов). Но кто-то должен перепроверять их.

Ганс Рослинг

Данные помогли понять, насколько опасен вирус Эболы. Именно благодаря экспоненциальным графикам, которые он получил, Рослинг бросил все дела и приехал в Либерию. Однако как только появились данные о том, что вирус удается победить, их публиковать попросту не стали!

Отчёт CDC по Либерии, в котором все посчитаны «в кучу» — и подтвержденные заболевшие, и «подозреваемые», и «возможные»
Отчёт CDC по Либерии, в котором все посчитаны «в кучу» — и подтвержденные заболевшие, и «подозреваемые», и «возможные»

Такое избирательное использование и публикация данных лишает запрос на точность их сбора и обработки всякого смысла! К отчётам CDC по соседней Сьерра-Леоне затем предъявила претензии и сама ВОЗ, увидев безумные «пики» в статистике из-за сочетания разнородных баз. CDC изменили методику учёта. Однако по Либерии до сих пор все заболевшие и подозреваемые на болезнь посчитаны «в кучу» — колоссальная ошибка по прежнему на виду.

Необходимо защитить доверие к данным и к тем, кто их публикует. Данные должны рассказывать правду, а не призывать к действию, неважно насколько благородны намерения. Инстинкт “Мы должны срочно что-то сделать! Анализ — потом, действуйте сейчас!” — это один из худших инстинктов

Ганс Рослинг

Урок, который мы не усвоили

«Нам нужно создать страх» — это слова бывшего вице-президента США Ал Гора. Он сказал их Рослингу, когда попросил того проиллюстрировать своими графиками опасность выбросов СО2 для своего очередного семинара.

При этом Гор отказался от предложенных Рослингом альтернативных графиков, которые показывали положительные прогнозы и улучшения. Шведский профессор настаивал на более объективной картине, но только преувеличение опасности могло дать Ал Гору ожидаемый эффект. Рослинг пошёл на принцип отказался от помощи одному из сильнейших мира сего.

К сожалению, мы никогда не узнаем, что сказал бы Рослинг, глядя на безумие в медиа сегодня — когда каждый второй журналист раскручивает панику все сильнее, привлекая на свою сторону новые непроверенные данные и рисуя новые пугающие графики. Несмотря на все оговорки учёных и институтов о том, что мы можем очень сильно ошибаться сейчас, когда смотрим на эти цифры! И несмотря на их напоминания, что многие данные ещё не очищены и сбивают нас с толку — это не останавливает никого. Мир продолжает крутить, паника и данные подпитывают её.

Опасность в том, что многомиллионная аудитория изучает графики на основе экстраполяций из неточных данных, и у них складывается иллюзия осведомленности. Люди не изучают природу данных, не проверяют их источников. Графики и выводы путешествуют из публикации в публикацию, уже без исходных оговорок, списков допущений и альтернативных сценариев. Пресса избирательно сохраняет только яркие провокационные картинки и выводы, привлекающие внимание, убирая все лишнее и двусмысленное.

Это не значит, что мы должны игнорировать гибель людей и пренебрегать опасностью. Но нам нужно быть аккуратнее и объективнее в том, как именно мы действуем. И точно — не позволять данным вызывать панику.

Ханс Рослинг умер в 2017 году от рака. От него осталась великолепная книга Factfulness, горячим поклонником которой я стал. Мы испольузем её теперь в магистратуре как часть нашего курса. Я хочу поделиться главными выводами, которые мы обычно закрепляем в финале курса:

  • Вдохните. Когда ваш инстинкт срочно действовать включается, ваша способность к анализу исчезает. Просите больше данных, проверяйте их.
  • Избегайте релевантных, но неточных данных.
  • Опасайтесь «пророков» и не полагайтесь на однозначные сценарии развития событий. Не оставляйте себе для анализа только лучший или только самый худший вариант
  • Опасайтесь радикальных шагов — оцените возможный вред. Менее драматичные действия чаще оказываются более эффективными.

Источники:

Factfulness: Ten Reasons We’re Wrong About the World--and Why Things Are Better Than You Think, ISBN-10: 1250107814

CDC[3]. «Ebola Outbreak in West Africa—Reported Cases Graphs.» Centers for Disease Control and Prevention, 2014. gapm.io/xcdceb17.

WHO[3]. WHO Ebola Response Team. «Ebola Virus Disease in West Africa—The First 9 Months of the Epidemic and Forward Projections.» New England Journal of Medicine 371 (October 6, 2014): 1481–95. gapm.io/xeboresp.

2828
21 комментарий

Любопытно посмотреть на  подобный анализ данных о COVID-19.

3
Ответить

Сейчас трудно увидеть, чтобы кто-то всерьёз занимался разбором данных COVID-19 - все борются с волной заболеваний, вводят карантины - словом, действуют. Попытки сказать "Давайте подождём, разберёмся" вызывают вполне обоснованный негатив. Думаю, подобный разбор мы можем увидеть только спустя приличное время, когда всё уляжется.

5
Ответить

Капля здравого смысла в потоке хаоса и паники. Спасибо

2
Ответить

Спасибо за оценку. 

Ответить

Опасаться радикальных шагов это звучит очень красиво и рационально, особенно если приправить ссылками на всякие исследования про когнитивные искажения и прочий научпоп.

Проблема только в том, что у нас нет(и не планируется) данных, а решение нужно принимать уже сейчас. В условиях неопределенности единственое правильное решение — радикальное, так как цена ошибки неизвестна и может быть огромной(а урон от этого радикального решения хотя бы примерно понятен).

1
Ответить

Данные - есть, а вот процессам их организации и очистки уделяется меньше времени, чем медиа тратят на пропаганду. "Примерная понятность" тоже может быть очень опасной вещью. 

1
Ответить

Отмечу, что когда я писал эту статью, вышел материал в "Коммерсанте". Аналогии напрашиваются сами собой. 

Ответить