{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Анализ рынка на примере распостранения COVID-19 в Беларуси

У вас минимум официальных данных, но необходимо оценить ситуацию на рынке. С такой ситуацией я столкнулся, когда захотел понять, что происходило в Беларуси с вирусом, и для решения задачи использовал привычные в работе инструменты.

Предисловие

Коронавирус правительство Республики Беларусь долгое время отрицало, а потом заявила о победе над вирусом. В Беларуси живут мои близкие, поэтому я решил узнать хотя бы тенденцию распространения ковида по городам.

Поиск точек для расчётов

Данные по заболевшим в РБ публиковались на сайте Минздрава без разбивки по городам и вот в таком виде:

Поиск альтернативных источников данных

Изучив симптомы болезни и подумав о поведении больных, появилась идея об использовании статистики WordStat и Google Trends.

В чём суть:

Аносмия (отсутствие обоняния) — это один из первых симптомов COVID-19.

⅔ людей, у которых был положительный результат ковида, не чувствовали запахи.

Гипотеза:

Если человек резко перестаёт чувствовать запахи, он начинает искать причину в интернете и вбивает запросы на подобии “не чувствую запахи”.

Проверка гипотезы:

Соотношу официальные данные Минздрава и данные Yandex.WordStat по неделям (вся Беларусь) и вижу следующую картину:

Соотношение данных Минздрава по заболевшим и запросов в Yandex

Визуально видна зависимость до 25.05, с 25.05. идёт несоответствие, словно в официальной статистике меньше заболевших, чем на самом деле...

Визуальный анализ это хорошо, но нужны цифры, чтобы убедиться в связи показателей.

Провожу на коленке регрессионный анализ в Excel и получаю коэффициент детерминации = 0,86. Окей, с этим можно работать.

Результаты регрессионного анализа в Excel

Строим графики

Собираю данные запросов по областям, нахожу доли запросов каждой области в общей сумме запросов, теперь можно вывести данные по городам с учетом официальной статистики.

Зараженные по городам за весь период анализа

Ого, уже лучше, а то даже такой статистики нет у жителей РБ.

Формируем данные по городам в разрезе времени

Поскольку мне известно:

  • количество запросов по городам и по неделям,
  • общие официальные данные,
  • угол наклона регрессионной прямой (9,766762154).

Я могу приблизительно увидеть, как распространялся вирус по городам, и ориентировочное количество больных.

Зараженные по соотношению – это расчётное число зараженных с учетом наклона регрессионной прямой.

Минск
Гомель
Брест
Витебск
Гродно
Могилёв

Выводы

Зависимость между запросами "не чувствую запахи" и положительными тестами на COVID-19 есть, эта зависимость не даёт 100% достоверной статистики по распостранению вируса, но является взглядом с другой стороны.

Есть ограничения у данного метода: данные в вордстате можно разбить только на недели и с задержкой на 5 дней.

Если есть желание мониторить тематические запросы и выявлять вспышки по городам в режиме онлайн, тогда надо выкупать показы по ключам в Google и Yandex. Даже со ставками на самую низкую позицию вы будете получать статистику по всем показам, и уже эту статистику использовать для анализа ситуации.

0
Комментарии
-3 комментариев
Раскрывать всегда