У вас минимум официальных данных, но необходимо оценить ситуацию на рынке. С такой ситуацией я столкнулся, когда захотел понять, что происходило в Беларуси с вирусом, и для решения задачи использовал привычные в работе инструменты.ПредисловиеКоронавирус правительство Республики Беларусь долгое время отрицало, а потом заявила о победе над вирусом. В Беларуси живут мои близкие, поэтому я решил узнать хотя бы тенденцию распространения ковида по городам.Поиск точек для расчётовДанные по заболевшим в РБ публиковались на сайте Минздрава без разбивки по городам и вот в таком виде:http://www.minzdrav.gov.by/sobytiya/u-belarusi-na-16-lipenya-vypisanyya-56-tys-915-patsyenta/Поиск альтернативных источников данныхИзучив симптомы болезни и подумав о поведении больных, появилась идея об использовании статистики WordStat и Google Trends.В чём суть:Аносмия (отсутствие обоняния) — это один из первых симптомов COVID-19.⅔ людей, у которых был положительный результат ковида, не чувствовали запахи.Гипотеза:Если человек резко перестаёт чувствовать запахи, он начинает искать причину в интернете и вбивает запросы на подобии “не чувствую запахи”.Проверка гипотезы:Соотношу официальные данные Минздрава и данные Yandex.WordStat по неделям (вся Беларусь) и вижу следующую картину:Соотношение данных Минздрава по заболевшим и запросов в YandexВизуально видна зависимость до 25.05, с 25.05. идёт несоответствие, словно в официальной статистике меньше заболевших, чем на самом деле...Визуальный анализ это хорошо, но нужны цифры, чтобы убедиться в связи показателей.Провожу на коленке регрессионный анализ в Excel и получаю коэффициент детерминации = 0,86. Окей, с этим можно работать.Результаты регрессионного анализа в ExcelСтроим графикиСобираю данные запросов по областям, нахожу доли запросов каждой области в общей сумме запросов, теперь можно вывести данные по городам с учетом официальной статистики.Зараженные по городам за весь период анализаОго, уже лучше, а то даже такой статистики нет у жителей РБ.Формируем данные по городам в разрезе времениПоскольку мне известно:количество запросов по городам и по неделям,общие официальные данные,угол наклона регрессионной прямой (9,766762154).Я могу приблизительно увидеть, как распространялся вирус по городам, и ориентировочное количество больных.Зараженные по соотношению – это расчётное число зараженных с учетом наклона регрессионной прямой.МинскГомельБрестВитебскГродноМогилёвВыводыЗависимость между запросами "не чувствую запахи" и положительными тестами на COVID-19 есть, эта зависимость не даёт 100% достоверной статистики по распостранению вируса, но является взглядом с другой стороны.Есть ограничения у данного метода: данные в вордстате можно разбить только на недели и с задержкой на 5 дней.Если есть желание мониторить тематические запросы и выявлять вспышки по городам в режиме онлайн, тогда надо выкупать показы по ключам в Google и Yandex. Даже со ставками на самую низкую позицию вы будете получать статистику по всем показам, и уже эту статистику использовать для анализа ситуации.