Насколько большими на самом деле являются большие данные?

Большие данные представляют собой новый уровень развития технологий, который создает, с одной стороны, новые возможности для бизнеса и общества в целом, а с другой - качественно иные риски для конституционных прав и свобод граждан. Позитивный потенциал данной технологии в коммерческой сфере сводится к возможному удешевлению товаров и услуг за счет сокращения трансакционных издержек на их создание благодаря более точным прогнозам потребностей потребителей и адресному предложению таких товаров и услуг; персонализации сервисов и коммуникаций и связанному с этим повышенному удобству совершения трансакций; повышению контроля качества продукции и т.д.

Насколько большими на самом деле являются большие данные?

Все специалисты, обращающиеся к проблематике больших данных, признают отсутствие официального/легального определения и многозначность самого термина, который применим как к информации ("что?"), так и к различным технологиям сбора и анализа этой информации ("как?") .

В настоящее время все подходы к пониманию больших данных можно условно разделить на социально-экономические, когда внимание уделяется бытовому пониманию, и формально-юридические, когда проводится правовой анализ больших данных.

К первой группе в основном относятся журналистские и иные подобные отраслевые материалы.

Например, можно найти указания на то, что, несмотря на дискредитацию понятия из-за размытости его содержания с момента первого упоминания в 2008 г. редактором журнала Nature К. Линчем, термин "Большие данные" (Big Data) характеризует "огромные объемы неоднородной и быстро поступающей цифровой информации, которые невозможно обработать традиционными инструментами... Анализ Больших данных позволяет увидеть скрытые закономерности, незаметные ограниченному человеческому восприятию. Это дает беспрецедентные возможности оптимизации всех сфер нашей жизни: государственного управления, медицины, телекоммуникаций, финансов, транспорта, производства и так далее".

"Идея заключается в том, чтобы "скормить" компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды - в таком масштабе, с которым человек не справится никогда" <14>. Ключевыми характеристиками для таких данных являются "три V": volume - величина физического объема; velocity - скорость прироста и необходимости быстрой обработки данных для получения результатов; variety - возможность одновременно обрабатывать различные типы данных", — говорит А. Беркана.

В рамках второй группы подходов к пониманию больших данных можно выделить, в частности, определение А.И. Савельева, называющего таковыми "динамически изменяющийся массив информации, который представляет собой ценность в силу своих больших объемов и возможности эффективной и быстрой обработки автоматизированными средствами, что, в свою очередь, обеспечивает возможность его использования для аналитики, прогнозирования и автоматизации бизнес-процессов".

Это определение распространяется на любые объемы информации вне зависимости от характера сведений и источника формирования, которые условно делятся на "промышленный интернет вещей", т.е. своего рода объективные показатели, сгенерированные различными устройствами в процессе функционирования (например, данные о давлении), и "Большие пользовательские данные", т.е. сведения о поведенческих характеристиках человека, которые накапливаются в результате прямого или косвенного участия самого пользователя (профили и личные кабинеты, в том числе в социальных сетях, результаты различных форм видеонаблюдения и пр.).

Фактически такое определение расширяет позицию, сформированную Европейской комиссией в рамках разработки общей стратегии регулирования данных (Большие данные - "это значительные массивы информации, создаваемой различными источниками с большой скоростью", которые могут быть структурированными, т.е. упорядоченными для целей поиска и систематизации, либо неструктурированными, т.е. не поддающимися подобной категоризации), а также учитывает присущие Большим данным свойства объемности, разнообразия, скорости и предполагаемой точности.

При этом не все считают, что объективная необходимость в работе с большими данными так уж велика. Как написал несколько лет назад один из читателей Forbes, комментируя материал, посвященный big data, “данные ваших последних 12 кампаний email-маркетинга - это не большие данные. Вы, вероятно, сможете записать их на компакт-диск. Научная проблема больших объемов данных стоит только для очень узкого круга компаний. Продолжать убеждать людей в необходимости больших данных бессмысленно, если описываемые вами проблемы могут быть проанализированы на iPad”.

А вот что говорит Иван Андриевский — первый вице-президент Российского союза инженеров: «Размер данных при работе с big data не имеет значения, имеет значение только степень несопоставимости исходной информации. В тот момент, когда данные не могут быть классифицированы в „обычной“ таблице и проанализированы — они становятся big data».

Таким образом, следует признать, что говоря о больших данных и их юридическом осмыслении, вопрос величины их объема имеет далеко не формальное значение. И не всегда то, что мы привыкли считать big data, действительно заслуживает термина “big”.

На интуитивном уровне специалисты, далекие от big data, привыкли называть большими данными любой объем информации, который сложно удержать в голове и/или который занимает много места. И такое интуитивное определение, конечно же, неправильно.

Однозначно отделить формат больших данных от обычных помогут три критерия.

Данные должны быть цифровыми. Книги в национальной библиотеке или стопки документов в архиве компании — это данные, и часто их много. Но термин big data означает только цифровые данные, которые хранятся на серверах.

Данные должны поступать в объективно больших объемах и быстро накапливаться. Например, база заказов интернет-магазина по продаже колясок может быть большой: 10 миллионов заказов за 20 лет, но пополняется она со скоростью 100 заказов в сутки — это не большие данные. Фильм в высоком качестве может занимать десятки гигов, но со временем его размер не растет — это тоже не big data.

А вот записи показателей пары сенсоров в двигателе Боинга, поступающие в количестве несколько гигабайт в час и загружаемые на диагностический сервер производителя авиатехники — это уже big data.

Данные должны быть разнородными и слабо структурированными. Заказы в онлайн-магазине упорядочены, из них легко извлечь дополнительные статистические параметры, например, средний чек или самые популярные товары. Поэтому эти данные не относят к big data.

Показания датчиков температуры с корпуса самолета, записанные за последние 6 месяцев, — информация, в которой есть польза, но не очень понятно, как ее извлечь. Можно, конечно, рассчитать средние значения температуры за бортом самолета за полгода, но какой в этом смысл? А если погрузиться в анализ этих данных глубоко — можно вытащить много неочевидной информации. Например, о длительности перелетов, скорости набора высоты, климатических условиях за бортом и так далее. Информация интересная и полезная, но трудноизвлекаемая, значит, это большие данные.

Этот критерий не всегда обязательный. Иногда большие объемы структурированных данных, которые постоянно пополняются, относят к формату big data, особенно если их используют для машинного обучения или выявления неочевидных закономерностей. То есть если к структурированным данным применяют методы анализа big data, можно сказать, что это они и есть.

Итак, большие данные — это трудноанализируемая цифровая информация, накапливаемая со временем и поступающая большими порциями. А вот насколько они большие, зависит исключительно от отрасли их применения и методик анализа.

На этом, пожалуй, мы сегодня и закончим. Но к работе с большими данными в сугубо правовом смысле обещаем вернуться еще не раз.

Публикация подготовлена при поддержке юристов DRC.

Насколько большими на самом деле являются большие данные?
Начать дискуссию