Почему так сложно построить хороший прогноз по COVID-19? Как понять, сколько продлится карантин?

Перевод от телеграм-канала "Рационально о коронавирусе".

На наш взгляд, это лучшая статья, простым языком разбирающая параметры эпидемиологических моделей. Как выразился Андрей Себрант, "Коронавирус уйдёт, а этот текст надо будет показывать всем, кто хочет оценить блеск и нищету data science".

Мэгги Кёрт, Лора Броннер и Жасмин Митани для FiveThirtyEight (31.03)
Перевод: Оксана Суркова для @coronavirus_facts (01.04)

Разгар пандемии. Мы сидим дома.

Всех занимает вопрос: насколько далеко все это зайдёт?

И тут же следом: ну серьёзно, как долго мне придётся сидеть взаперти?

Нам всем нужны ответы. И кажется, что они должны существовать, учитывая сколько данных о новом коронавирусе уже собрано и сколько исследований проведено.

<i>[Ред.: Давайте просто построим точную модель, ведь у нас есть все данные!]</i> Оригинал: https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/
[Ред.: Давайте просто построим точную модель, ведь у нас есть все данные!] Оригинал: https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/

Безусловно, данные есть. Но все считают их по-своему, поэтому из них невозможно сделать однозначные выводы.

Например, Центры по контролю и профилактике заболеваний США (The Centers for Disease Control and Prevention) используют модель, согласно которой в самом оптимальном сценарии в США ожидается около 200,000 смертей, по данным New York Times.

Недавний отчёт Imperial College London, который произвёл сенсацию пугающим прогнозом, предсказывал порядка 2,200,000 смертей от коронавируса в Соединенных Штатах, если бы люди не изменили своё поведение. (Именно этот отчёт заставил многие правительства пересмотреть стратегию борьбы с эпидемией.)

Мягко говоря, это гигантский разрыв в числах: как между числом людей, ежегодно умирающих от травм и насилия в США, и числом жертв подавления контрреволюции китайскими коммунистами в период с 1950 по 1953 гг.

Иными словами, разница такая же, как между теми числами, с которыми мы живём каждый день, и теми, что меняют страну навсегда.

[От редакции: во имя интеллектуальной честности, отметим, что авторы сравнивают худший сценарий (не предприняты никакие меры) с реалистичным (приняты экстраординарные меры, напоминающие военное положение). Понятно, что получается огромный разброс.

Фактически же, Центры по контролю и профилактике заболеваний США активно используют модели Imperial College London для прогнозирования эпидемий]

Почему разница так велика?

Такова в принципе природа моделирования. (И одна из причин, по которой FiveThirtyEight не имеет собственной модели.) Использование математической модели для прогнозирования будущего ценно для экспертов, даже если между возможными результатами лежит целая пропасть. Но не всегда легко разобраться с этими результатами и с тем, как они меняются со временем.

Поэтому мы хотим разобраться в том, что входит в модель пандемии.

Надеемся, что прояснение неопределенности поможет вам получить максимальное понимание чисел, которые сыплются со всех сторон.

Представим простую математическую модель для прогнозирования исходов коронавируса.

Количество людей, которые умрут, зависит от того, сколько людей может заразиться, как распространяется вирус и сколько людей он способен убить.

​N(умерших) = N(восприимчивая популяция) * уровень инфицированности * уровень летальности Оригинал: https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/
​N(умерших) = N(восприимчивая популяция) * уровень инфицированности * уровень летальности Оригинал: https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/

Другими (более математическими) терминами:

N(умерших) = N(восприимчивая популяция) * уровень инфицированности * уровень летальности

Видите, как всё легко?

Но затем вы начинаете пытаться подставить туда цифры. Именно тогда вы обнаружите, что нет ни одной, которую можно подставить куда бы то ни было. На каждую переменную влияет несколько допущений и пробелов в знаниях. И если каждая составная часть модели колеблется, то ей будет так же нелегко встать на ноги, как и журналистке, пишущей об обработке данных в социальной изоляции.

Рассмотрим, к примеру, исходные данные. Разные страны и регионы собирают данные по-разному. Нет ни одной сводной таблицы, которую единообразно заполняют все, что могло бы позволить нам легко сравнивать ситуации и количество смертей по всему миру. Даже в Соединенных Штатах врачи говорят, что общее число смертей, вызванных COVID-19, занижено.

Похожие нестыковки возникают с тестированием. Некоторые страны тестируют всех желающих, другие — нет. Это влияет на то, насколько точно мы знаем число людей, фактически больных COVID-19, и число людей, давших положительный результат.

Вирус более опасен для уязвимых групп, поэтому демография конкретной локации и доступ к медицинской помощи станут серьезными факторами, когда речь зайдёт о влиянии вируса на сообщества.

«Люди, работающие в сфере общественного здравоохранения, часто работают в потёмках, пытаясь дать точные предположения исходя из неопределённой информации», — говорит Билл Миллер, профессор эпидемиологии в Университете штата Огайо.

Итак, давайте исследуем нашу суперпростую модель, чтобы понять, почему так сложно хорошо прогнозировать нечто столь неопределённое.

УРОВЕНЬ ЛЕТАЛЬНОСТИ

Некоторые люди умирают от COVID-19. Это, пожалуй, единственное и последнее абсолютное утверждение, которое мы можем здесь сделать. Но «некоторые» — это не число, с ним не сделать расчёт.

<i>[Ред.:Уже сложно, но дальше будет хуже]</i> Оригинал: https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/
[Ред.:Уже сложно, но дальше будет хуже] Оригинал: https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/

Проблема в том, что подсчет уровня летальности от вируса с самого начала мутноват. Он может сильно варьироваться при переходе от одной группы людей к другой. «Поскольку возраст является важнейшим фактором, вы должны скорректировать показатели летальности с учётом демографического состава США, а также наличия сопутствующих заболеваний», — говорит Рэй Ваньер, исследовательница биостатистики из Калифорнийского университета в Сан-Франциско, в электронном письме FiveThirtyEight. (Сопутствующие (коморбидные) заболевания являются иными заболеваниями и хроническими расстройствами, которые могут усугубить последствия COVID-19.)

Таким образом, не существует единого «уровня летальности» — их много. Уровень летальности в Соединенных Штатах будет отличаться от уровня летальности в стране, где, скажем, диабет менее распространён. То же самое можно сказать и о показателях внутри США — если вирус распространяется в районе, где есть метро и много пожилого населения, то уровень летальности, рассчитанный там, будет выше, чем если бы эпицентр находился в городе, в котором процент молодого населения сильно выше.

Но давайте пока вернемся к международной ситуации. Может ли знание уровня летальности от COVID-19 в Китае или Италии подсказать нам, каким будет уровень летальности в США? Конечно, может — но это лишь снизит неопределенность, а не прояснит всё до конца.

Мы не знаем фактический уровень летальности в этих местах по ряду причин, начиная со сбора основных данных о случаях коронавируса. Цифры — это не факты. Они являются результатом множества субъективных выборов, которые должны быть прозрачно и подробно задокументированы, прежде чем вы начнёте рассматривать результат как факт. Важно, как собираются данные — и собираются ли они всегда одинаково.

Часть данных неточны или не получены. Чтобы определить уровень летальности, вы должны разделить число умерших от болезни людей на число инфицированных. У нас нет надёжного числа инфицированных — так что, говоря математическими терминами, знаменатель нам не известен. (Если честно, мы не знаем и числитель, но мы предполагаем, что он ближе к реальному.)

Но кое-что мы уже знаем.

Тысячи пассажиров круизного лайнера Diamond Princess прошли тест на наличие COVID-19. Появившиеся данные кое-что говорят об уровне заболеваемости и летальности для остальных нас, но это не идеальная параллель, поскольку «остальные из нас» не живут на круизных судах.

В идеальном мире мы бы проверили каждого человека в популяции на наличие признаков заражения новой коронавирусной инфекцией, чтобы точно знать, сколько людей переболело этой болезнью и сколько из них умерло из-за нее. Вместе с тем, есть всего пара ситуаций, которые хотя бы близки к этому. Возьмем к примеру Diamond Princess, один из круизных лайнеров, попавших в карантин после вспышки COVID-19. Почти все находившиеся на борту были протестированы (3,063 образца от 3,711 человек). «Принцесса» стала живой лабораторией с такими условиями документирования данных, каких обычно не бывает в реальном мире. Исследователи смогли зафиксировать не только число заболевших, но и то, сколько из них не имели никаких симптомов — и, таким образом, скорее всего, остались бы непротестированными, недиагностированными и неучтенными, если бы они были на суше.

В результате этой необычной ситуации мы знаем, что есть много людей, расхаживающих с COVID-19, не зная об этом, следовательно, уровень летальности ниже, чем нам сообщают. В популяции «Принцессы» летальность среди людей с диагнозом и симптомами заболевания составляла 2.3 процента, а среди всех диагностированных случаев — включая бессимптомные — 1.2 процента (это в среднем; вот ещё один пример влияния неопределённости на результат — даже здесь мы знаем интервал, а не уровень: среди людей с симптомами летальность находится между 0.8% и 5.3%, среди всех инфицированных — между 0.4% и 2.7%).

Исландская компания deCODE Genetics начала предлагать бесплатные скрининги для всех людей без симптомов с 13 марта. По состоянию на 29 марта deCODE выявили 71 инфицированного человека в выборке из 8,694 тестов, включая бессимптомные течения инфекции.

Между тем, этот показатель симптоматичности — отношение количества людей с симптомами к бессимптомным — имеет большое значение, и сейчас, по большому счёту, мы просто пытаемся его угадать.

В отчете Imperial College London предполагается, что две трети случаев заболевания будут протекать с достаточно выраженными симптомами, чтобы инфицированные люди заметили это и самоизолировались. Данные, полученные с Diamond Princess, показали, что примерно в половине случаев люди имели симптомы на момент постановки диагноза. То, каким уровень симптоматичности окажется на самом деле, изменит расчёты уровня летальности.

Данные лайнера Diamond Princess не идеальны — не все были протестированы, демография круизных судов не репрезентативна для более широких слоёв населения, и некоторые больные пассажиры всё ещё могут умереть, что увеличит показатель летальности.

Но на суше нет более надёжной статистики. Исландские данные не были опубликованы с таким же уровнем методологической детализации. В США такого рода тестирование с широким охватом только начинается, и это действительно важно. Если вы в первую очередь тестируете больных, как это делают некоторые штаты, уровень летальности не будет отражать ничего похожего на фактический уровень летальности от вируса. (Это снова к проблеме знаменателя.) Тестирование в США было затруднено дополнительными проблемами, например, отсутствием общедоступных тестов или тем, что некоторые частные лаборатории не сообщают количество тестов, показавших отрицательный результат.

На истинный уровень летальности от этой болезни также влияет наша способность предотвращать смерть тех, кто тяжело болен. И это зависит от возможностей больниц. При неограниченном доступе к койкам отделения интенсивной терапии и аппаратам искусственной вентиляции легких многие люди с даже тяжелыми симптомами могли бы выжить. Но эти ресурсы достаточно ограничены, и если спрос превысит предложение — как это уже произошло в некоторых частях страны, — люди, которые выжили бы с помощью аппарата искусственной вентиляции легких, скорее всего, умрут. Это может вызвать эффект домино. Люди, обращающиеся за лечением по не связанным с вирусом случаям или чрезвычайным ситуациям, также могут пострадать от нехватки больничных ресурсов, и их потенциально предотвратимая смерть — даже от причин, не связанных с COVID-19, — добавится к общему числу смертей — даже если они не будут считаться смертями от COVID-19.

“То, испытаем ли мы в итоге нехватку снабжения и персонала, сильно повлияет на летальность, и пока не ясно, какова степень масштабируемости нашей медицинской системы ”, — говорит Ваньер.

УРОВЕНЬ ИНФИЦИРОВАННОСТИ

Почти всё, что мы уже говорили о летальности, относится и к уровню инфицированности: все оценки будут зависеть от сбора данных, отбора проб и наличия симптомов. Чтобы узнать уровень инфицированности, нужно выяснить, как часто вирус передается от одного человека к другому.

Вы, вероятно, слышали термин "базовое репродуктивное число", или R0, среднее число напрямую инфицированных больным в течение всего периода заразности (в популяции, где все восприимчивы к этой болезни).

​[Ред.: В моделях столь много неопределённостей, что скорее удивительно то, что учёным удаётся строить адекватные прогнозы] Оригинал: https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/
​[Ред.: В моделях столь много неопределённостей, что скорее удивительно то, что учёным удаётся строить адекватные прогнозы] Оригинал: https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/

Передаваемость болезни чрезвычайно изменчива и зависит от социального поведения, местных экологических факторов и политических решений. Она не будет одинаковой в разных странах. Вероятно, она не будет одинаковой и от одного штата к другому. Она будет меняться с течением времени в зависимости от того, какие действия мы предпримем для борьбы с вирусом. Малярия, например, имеет более высокое базовое репродуктивное число в тех местах, где много стоячей воды.

Из-за изменчивой передаваемости коронавирусной инфекции моделирование потенциальных исходов требует учесть множество различных сценариев передачи. Однако даже эти сценарии не являются точными; они больше похожи на ряд предположительных оценок. Есть несколько переменных, которые входят в эти предположения, и каждая из них сама по себе в итоге является переменной. (Да, черепахи до самого низа!)

Первая переменная — это частота контактов, то есть число людей, с которыми инфицированный человек взаимодействует в течение определенного периода времени. Люди могут контролировать это число, поэтому сейчас мы сидим дома, в режиме социального дистанцирования. Средняя частота контактов неоднородна — она отличается от человека к человеку, в зависимости от жилищных условий, работы, политики общественного здравоохранения и местоположения. – Представьте себе разницу в частоте контактов между Аппалачами в штате Огайо [прим: сельская местность] и центром крупного города этого же штата, такого как Кливленд или Колумбус, — говорит Миллер.

Затем идет скорость передачи инфекции на контакт. Имеется в виду, сколько людей, с которыми встретится инфицированный человек, от него заразятся. Ещё одна движущаяся мишень. Вирусы не распространяются упорядочено, вроде «по два новых случая на инфицированного человека». Напротив, заражения, как правило, происходят неравномерными вспышками, например, в толпе в супермаркете, скупающей туалетную бумагу.

Сэм Скарпино, профессор Северо-Восточного университета (Бостон), который моделирует распространение инфекционных заболеваний, называет такие случаи "супер-распространением" — ситуации, когда какой-то фактор, обычно связанный с местоположением, а не с конкретными людьми, внезапно увеличивает число случаев заболевания. Например, конференция компании Biogen, которая ответственная за 77 из 95 случаев, диагностированных к 11 март в Массачусетсе. Или та женщина, которая в одиночку сломала ранее эффективную стратегию сдерживания вируса в Южной Корее.

И помните про показатель симптоматичности? Некоторые предполагают, что бессимптомные носители менее заразны, чем люди, у которых проявляются симптомы, так что этот фактор также играет роль в скорости передачи инфекции.

Биология вирусов также имеет значение, когда вы пытаетесь рассчитать показатель передачи за контакт. Она включает в себя и такие параметры, как стабильность вируса на разных поверхностях (и на какие поверхности он попадает) и как далеко он может пролететь в каплях по воздуху. В настоящее время существуют конкурирующие оценки для обоих этих параметров для нового коронавируса. А ведь ещё есть различия в человеческих организмах и поведении. Курильщики, например, могут быть подвержены большему риску заражения и развития осложнений от вируса. И хотя во многом этот повышенный риск связан с влиянием курения на лёгкие и с тем, что делает вирус, когда он попадает в организм, что-то, возможно, связано и с тем, что курильщица прикасается руками ко рту чаще среднего некурящего человека, увеличивая тем самым риск передачи инфекции.

Наконец, существует длительность заразности как долго человек может заражать вирусом других и как заразность меняется во время болезни? Это зависит от биологии вирусов и индивидуальных иммунных систем, говорит Марк Вейр, директор программы экологии, эпидемиологии и здоровья населения Университета штата Огайо.

Все эти параметры используются для оценки R0, базового репродуктивного числа вируса.

Хотя базовое репродуктивное число исходит из того, что восприимчива вся популяция, существует также фактическое репродуктивное число, зависящее от того, насколько восприимчива популяция. Одна из причин того, что столь большая часть населения считается восприимчивой, заключается в том, что новый коронавирус именно таков — он новый. Никто не заражался им раньше.

Хорошая модель должна также учесть вопросы, связанные с повторным заражением: если люди, которые перенесли вирус и выздоровели, обретают иммунитет к повторному заражению, то восприимчивая популяция сокращается. Но до сих пор мы не можем быть до конца уверены о постинфекционном иммунитете к этому вирусу.

И всё это даже не учитывает того, как меняется восприимчивость, если создаётся что-то вроде вакцины. Но мы и так разбирались достаточно долго.

СМЕШАЕМ ВСЁ В ОДНОЙ МОДЕЛИ

Итак, чтобы построить модель, мы должны собрать все эти переменные (и другие, о которых наш редактор не позволил бы нам упомянуть), учесть их неопределённость, уровень корреляции друг с другом и всякие другие вещи. Это может быть нелегко.

На все эти факторы могут влиять все те меры, которыми мы пытались уменьшить распространение вируса — социальное дистанцирование, мытье рук, закрытие школ, сокращение плановых операций и тому подобное. Это влиятельное «неизвестное», которое может резко изменить форму вспышки — и все же оно также зависит от страны, штата и даже города.

[Ред.: Вот видите, всё очень понятно​. В том числе понятно, что это сильно упрощённая модель] Оригинал: https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/
[Ред.: Вот видите, всё очень понятно​. В том числе понятно, что это сильно упрощённая модель] Оригинал: https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/

Подумайте обо всём этом, будто это процесс приготовления пирога.

Если у вас обычный рецепт, вы это сделаете довольно легко и можете ожидать предсказуемый осмысленный результат. Но если рецепт содержит инструкции типа "добавьте от 3 до 15 нарезанных яблок, или стейки, или брюссельскую капусту, в зависимости от того, что у вас есть под рукой”, то это повлияет на то, насколько вкусен этот пирог, не так ли?

Вы можете сделать предположения о правильных ингредиентах и их количестве, но это предположения, а не абсолютные факты. И если вы сделаете слишком много предположений в процессе выпечки пирога, вы вполне можете получить что-то совершенно отличное от того, что вы должны были сделать.

И вы вовсе не обязательно будете знать, что вы ошиблись.

В течение следующих нескольких месяцев вам встретится много различных прогнозов относительно исходов COVID-19. Не все они совпадут, но тот факт, что они основаны на предположениях, не означает, что они бесполезны.

“Все модели ошибочны, мы боремся за то, чтобы сделать их менее ошибочными и максимально полезными", — говорит Вейр.

Мы проголодались, так что кто-то должен заняться выпечкой. Но обязательно выясните, какие ингредиенты и в каких пропорциях добавлены в пирог.

Перевела Оксана Суркова для канала "Рационально о коронавирусе"

Редактура: Инна Зухер, Дима Калупин, Наташа Короткова, Таня Ландо

Публикуем самое важное о пандемии COVID-19, пишем аналитические материалы, делимся наглядными моделями, переводим топовые лонгриды: @coronavirus_facts (Телеграм)

(А если хотите узнать, какие прогнозы по срокам завершения карантина и других экстренных мер дают разные эксперты, прочитайте этот материал The Atlantic, его мы пока не перевели)

77
13 комментариев

понятно же...  что карантин продлится1.5 года. Потом еще 2 года будут вспыхивать очаги. За все время коло 5 млн. смертей. Работу потеряет 40% населения. Начнется великая депрессия, которая продлится 10 лет и закончится WWIII естественно. 

2

N(умерших) = N(восприимчивая популяция) * уровень инфицированности * уровень летальности Видите, как всё легко?

N(Нет денег) = нет еды * с голой жопой чешешь на работу * уже пох*й на коронавирус

Не совсем так.
N(пох*й на коронавирус) = нет денег  * нет еды * с голой жопой чешешь на работу

1

Комментарий недоступен

Классно, что вы уже во всём разобрались и что вам не пришлось для этого читать статью 

1

Учитывая, что добрая половина населения не тестируется даже с симптомами, не говоря уже о бессимптомном протекании болезни, то ваша формула выздоровевшие/умершие не работает. Так как никто не знает сколько было заболевших.