«Стоит ли купить кондиционер сейчас или позже? Наверное, надо было купить раньше?» — эксперт ЦПУР об анализе данных

«Стоит ли купить кондиционер сейчас или позже? Наверное, надо было купить раньше?» — эксперт ЦПУР об анализе данных

Руководитель проектного направления «Оценка программ и политик» Центра перспективных управленческих решений Максим Цыганков рассказывает о дата-аналитике, как о творческом процессе, помогающем решать самые нетривиальные практические задачи.

Анализ данных в современной России

Данных в нашей жизни становится все больше. Что касается России, то наша страна начала коллекционировать статистику в различных областях еще во времена Советского Союза. Сейчас, с интервенциями новых гаджетов и появлением сбора информации в новых сферах, Россия если не лидирует, то точно находится в первой тройке стран по объему данных. И хотя данные — это нефть XXI века, с ними нужно еще и что-то делать. Сами по себе они не представляют ценности, но из них можно получать информацию.

Вот для чего необходим анализ данных. Считается, что это область математики и экономики, хотя на самом деле при анализе используются методы разных дисциплин, в том числе логики, комбинаторики, теории вероятности, статистики, алгоритмов и так далее. С точки зрения области применения анализ также не ограничивается экономикой или инженерным профилем. Он используется везде, где принимаются решения, где нужно приращение знания.

Большое развитие анализ данных сейчас получает в социальных науках — истории, антропологии, биологии, социологии.

Много современных исследований связаны с изучением наследственных связей, нейронных сетей, когнитивными науками. Применяется анализ данных и для оценки рисков и эффекта воздействия. Например, чтобы понять, насколько эффективна волонтерская деятельность некоммерческой организации, и какие дивиденды она приносит целевой аудитории необходимо провести такую оценку воздействия. Еще один пример — Институт проблем правоприменения, который занимается анализом данных в контексте обнаружения пробелов между формальными законами и их практическим применением. До его возникновения сложно было подумать, как чисто социальная наука — право — может интегрироваться с математическими статистическими методами вроде анализа данных. И тем не менее, это одна из развивающихся отраслей.

Всем нужен анализ данных

Все мы используем анализ данных и в повседневной жизни, каждый раз, когда принимаем решение. Например, сейчас в Москве жара, и кондиционеры выросли в цене. Стоит ли купить кондиционер сейчас или позже? Наверное, надо было купить раньше? И каждый из нас на потребительском уровне принимает решения, прогнозируя цены на товары — автомобили, телефоны и т. д. Можно сказать, что так мы на обывательском уровне воспроизводим регрессионный анализ — предсказываем цены по известным данным. Мы выступаем аналитиками, и это происходит повсеместно и повседневно. Или анализ альтернативных вариантов — поехать в отпуск или вместо этого повысить свой уровень знаний? Анализ помогает нам принять решение и здесь.

Аналитические, логико-теоретические методы позволяют нам структурировать задачи, правильно ставить цели, видеть причинно-следственные связи. В бытовом плане это, например, задача обучения на аналитика — как попасть из пункта А в пункт Б. И хотя мы еще только хотим стать дата-аналитиками, мы уже можем выстроить пошаговую логику того, как прийти к цели.

Каждый раз, когда мы принимаем решение в повседневной жизни, мы используем анализ данных.

Место для творчества среди цифр

Анализ данных начинается со сбора. Любой аналитик скажет — непосредственно сам анализ может занимать не так много времени, но обработка, структурирование, приведение информации к одному виду, который позволил бы применить математические модели и сделать расчеты, часто составляют от 60 до 80% всего процесса анализа. У каждого из нас есть мечта строить модели и проверять, насколько они валидны. Но для этого нужны данные. Их много, но они приобретают ценность, только когда имеют структуру, когда они связаны между собой, гармонизированы, когда решены вопросы с пропусками, некорректными типами данных. Речь не только о количественных данных, но и других форматах: фото, звук, видео.

Данных много, но они приобретают ценность, только когда имеют структуру, когда они связаны между собой, гармонизированы, когда решены вопросы с пропусками, некорректными типами данных.

В анализе данных, безусловно, присутствует творческая компонента, отчасти, напоминающая теорию решения изобретательских задач (ТРИЗ). Например, надо оценить эффективность государственных выплат малообеспеченным семьям. Есть два набора данных: в одном содержится информация о том, сколько эти семьи тратят, в другом — сколько они зарабатывают. Стоит задача объединить эти данные и после провести анализ. Это достаточно творческая задача: есть много вариантов и методов объединения. По каким признакам объединять, как правильно структурировать совокупность наблюдений, как не потерять репрезентативность? К решению этих задач требуется творческий подход.

Дата-аналитика на службе государства

Мы в Центре перспективных управленческих решений оцениваем, насколько результативны меры государства, выявляем итоговые эффекты от государственных интервенций, выясняем, какие альтернативные меры могут быть реализованы. Например, государство нацелено снизить уровень бедности и повысить уровень дохода, для чего реализует ряд инициатив. Скажем, выплачивает социальные выплаты и пособия. На них тратятся средства налогоплательщиков, которые, естественно, заинтересованы, чтобы средства расходовались рационально и результативно. Есть ли эффект от пособий, или стоит смотреть в долгосрочную повестку? Не только выплачивать пособия, но и повышать уровень образования, закладывая базу для повышения дохода в перспективе? Чтобы это понять и узнать, что необходимо сделать в конкретной ситуации и в конкретных институциональных условиях, и нужен анализ данных.

Один из наших проектов — это анализ документов, содержащих оценку регулирующего воздействия. Большинство нормативных актов федеральных ведомств до принятия анализируются на предмет того, не мешают ли они существующим законам, не вносят ли деструктива в другие процессы, реализующиеся на уровне государства, не создают ли негативных последствий для граждан. В результате получается объемный документ, с которым работают мои коллеги. Текст структурируется, разбирается, а потом к нему применяется семантический анализ.

Мы в Центре перспективных управленческих решений оцениваем, насколько результативны меры государства и выясняем, какие альтернативные меры могут быть реализованы.

Такой анализ — полностью творческая работа. Нужно выявить паттерны, разобрать конструкцию и понять ее смысл, выделить семантические единицы… И на основе одного только текста определить качество оценки регулирующего воздействия. Это очень сложная, нетривиальная, творческая задача, хотя она и лежит в плоскости госуправления. Творчество зависит не от отрасли, а от постановки задач.

***

Текст подготовлен совместно с НИУ ВШЭ в рамках в рамках национальной олимпиады по анализу данных «DANO».

1 комментарий

Комментарий недоступен

Ответить