Анализ рынка на примере распостранения COVID-19 в Беларуси

У вас минимум официальных данных, но необходимо оценить ситуацию на рынке. С такой ситуацией я столкнулся, когда захотел понять, что происходило в Беларуси с вирусом, и для решения задачи использовал привычные в работе инструменты.

Анализ рынка на примере распостранения COVID-19 в Беларуси

Предисловие

Коронавирус правительство Республики Беларусь долгое время отрицало, а потом заявила о победе над вирусом. В Беларуси живут мои близкие, поэтому я решил узнать хотя бы тенденцию распространения ковида по городам.

Поиск точек для расчётов

Данные по заболевшим в РБ публиковались на сайте Минздрава без разбивки по городам и вот в таком виде:

Поиск альтернативных источников данных

Изучив симптомы болезни и подумав о поведении больных, появилась идея об использовании статистики WordStat и Google Trends.

В чём суть:

Аносмия (отсутствие обоняния) — это один из первых симптомов COVID-19.

⅔ людей, у которых был положительный результат ковида, не чувствовали запахи.

Гипотеза:

Если человек резко перестаёт чувствовать запахи, он начинает искать причину в интернете и вбивает запросы на подобии “не чувствую запахи”.

Проверка гипотезы:

Соотношу официальные данные Минздрава и данные Yandex.WordStat по неделям (вся Беларусь) и вижу следующую картину:

Соотношение данных Минздрава по заболевшим и запросов в Yandex
Соотношение данных Минздрава по заболевшим и запросов в Yandex

Визуально видна зависимость до 25.05, с 25.05. идёт несоответствие, словно в официальной статистике меньше заболевших, чем на самом деле...

Визуальный анализ это хорошо, но нужны цифры, чтобы убедиться в связи показателей.

Провожу на коленке регрессионный анализ в Excel и получаю коэффициент детерминации = 0,86. Окей, с этим можно работать.

Результаты регрессионного анализа в Excel
Результаты регрессионного анализа в Excel

Строим графики

Собираю данные запросов по областям, нахожу доли запросов каждой области в общей сумме запросов, теперь можно вывести данные по городам с учетом официальной статистики.

Зараженные по городам за весь период анализа
Зараженные по городам за весь период анализа

Ого, уже лучше, а то даже такой статистики нет у жителей РБ.

Формируем данные по городам в разрезе времени

Поскольку мне известно:

  • количество запросов по городам и по неделям,
  • общие официальные данные,
  • угол наклона регрессионной прямой (9,766762154).

Я могу приблизительно увидеть, как распространялся вирус по городам, и ориентировочное количество больных.

Зараженные по соотношению – это расчётное число зараженных с учетом наклона регрессионной прямой.

Минск
Минск
Гомель
Гомель
Брест
Брест
Витебск
Витебск
Гродно
Гродно
Могилёв
Могилёв

Выводы

Зависимость между запросами "не чувствую запахи" и положительными тестами на COVID-19 есть, эта зависимость не даёт 100% достоверной статистики по распостранению вируса, но является взглядом с другой стороны.

Есть ограничения у данного метода: данные в вордстате можно разбить только на недели и с задержкой на 5 дней.

Если есть желание мониторить тематические запросы и выявлять вспышки по городам в режиме онлайн, тогда надо выкупать показы по ключам в Google и Yandex. Даже со ставками на самую низкую позицию вы будете получать статистику по всем показам, и уже эту статистику использовать для анализа ситуации.

11
Начать дискуссию