На что похожи данные – на нефть или на солнечный свет?

Перевод статьи The Economist о том, что такое данные, кому они принадлежат, а также о различных подходах к экономике данных, с комментарием директора по исследованиям и разработкам компании "Цифра" Сергея Свиридова.

Множество граней данных

Филологи, страстно увлеченные грамматикой английского языка, давно спорят по поводу употребления слова “data” (данные) в единственном или во множественном числе (вопреки общепринятой практике, The Economist пока придерживается последнего варианта). Правильнее было бы спросить: почему у данных так много граней.

Чтобы найти ответ, начнем с метафор, используемых для описания потоков данных. Поначалу они уподоблялись нефти, исходя из предположения, что являются топливом будущего. Позднее было сделано сравнение с солнечным светом, потому что скоро они, как солнечный свет, будут везде и будут служить всему основой. О данных также говорят как об инфраструктуре: их следует рассматривать как некоего цифрового двойника предприятий, требующего государственных инвестиций и новых институтов для управления ими.

Появление новых и новых метафор отражает гибкость экономики данных. Во-первых, они “неконкурентны”: если их можно бесконечно копировать, то ими может пользоваться множество людей без ограничений. В то же время данные “отчуждаемы”: такие технологии, как шифрование, могут контролировать доступ к ним. В зависимости от жесткости криптографических настроек данные могут быть либо собственностью, как нефть, либо общественным благом, как солнечный свет, либо чем-то средним – так называемым коллективным благом.

Это, в свою очередь, означает, что не существует единой экономики данных, а есть три более или менее отдельных экономики, каждая с собственной идеологией. И большой вопрос, станет ли одна из них главенствующей или нет.

Если нефть и остается наиболее часто используемой метафорой, то это оттого, что сравнивать данные с ней удобно. Как и нефть, данные нужно очищать, чтобы они приносили пользу. В большинстве случаев их нужно “очищать” и “помечать”, в том смысле, что они должны быть очищены от неточностей и снабжены пометками, что можно увидеть, скажем, на видео. Это породило глобальную индустрию, обеспечивающую занятость сотням тысяч людей, в основном в странах с низкой оплатой труда.

ScaleAI, стартап в Сан-Франциско, предоставляет работу 30 тыс. “разметчиков” по всему миру, которые просматривают отснятый беспилотными автомобилями материал и проверяют правильность распределения программным обеспечением компании таких объектов, как дома и пешеходы.

Прежде чем сервисы ИИ смогут работать с данными, их также нужно пропустить через алгоритмы, чтобы научить их распознавать лица, управлять беспилотными автомобилями и предсказывать, когда реактивным двигателям понадобится техосмотр. А также зачастую нужно комбинировать различные наборы данных для составления статистических образов. Например, в случае c реактивными двигателями смешивание данных об использовании и погоде помогает предсказать износ.

Метафора с нефтью также звучит верно, поскольку некоторые типы данных и результаты их анализа уже широко используются в качестве объекта торговли. Реклама в Интернете, вероятно, является крупнейшим рынком персональных данных: клики покупаются и продаются, исходя из подробного цифрового профиля каждого зрителя. В PricewaterhouseCoopers в 2018 году подсчитали, что расходы на рекламу в Интернете в США впервые превысили $100 млрд. Продавцы данных, которые могут отслеживать тысячи точек данных по каждому человеку, ведут оживленную торговлю, в том числе и персональной информацией. Они продают ее всем подряд, от банков до операторов телекоммуникационных услуг, получая годовой доход более 21 млрд долларов.

Предложение результатов интеллектуального анализа данных также может быть очень прибыльным. На сайте Kaggle (система организации конкурсов по исследованию данных, а также социальная сеть специалистов по обработке данных и машинному обучению), принадлежащем Google, тысячи команд специалистов по анализу и обработке данных соревнуются друг с другом в том, кто предложит лучшие алгоритмы для прогноза потребления зданием энергии или обнаружения “дипфейковых” видео, причем размеры призов иногда превышают $1 млн. Таким же образом зарабатывают деньги Facebook и Google. Они практически никогда не продают данные, зато продают результаты интеллектуального анализа данных о том, кто является лучшим объектом для рекламы.

Хотя данные и не смогли стать “новым типом активов”, как еще в 2011 году предполагал World Economic Forum. Большая часть данных никогда не переходит из рук в руки, и попытки сделать данные более продаваемыми не удались. Чтобы изменить эту ситуацию, особенно в Европе, производители стараются обеспечить права собственности на данные, генерируемые их продукцией. Другие хотят, чтобы потребители владели данными, которые они создают, чтобы они могли продать их и получить большую долю от своей информации.

И опять-таки, в дело вмешивается экономика. Несмотря на то, что данные часто рассматриваются в качестве товара, корпоративные наборы данных, как правило, не взаимозаменяемы. Они отличаются способом сбора, своим назначением и достоверностью. Это мешает покупателям и продавцам договориться о цене: ценность каждого типа набора данных трудно поддается сравнению и меняется с течением времени. Еще одно препятствие к торговле состоит в том, что ценность набора данных зависит от того, кто его контролирует. Одни и те же данные могут быть просто отработанным материалом для одной компании и оказаться “цифровым золотом” для другой. “Данные не имеют подлинной ценности”, – говорит Диана Койл (Diane Coyle) из Кембриджского университета.

Что касается персональных данных, то определение прав собственности является весьма сложной задачей, так как большая часть информации касается нескольких человек. Например, кто владеет информацией, что сайт знакомств подобрал пару? Сама пара? Или сервис? Все осложняется еще и тем, что данные имеют массу внешних факторов, как положительных, так и отрицательных, означая, что рынки данных зачастую рушатся. Скажем, зачем социальной сети покупать данные о каком-либо человеке, если она может составить достаточно точные прогнозы о нем, обрабатывая данные от других пользователей?

Несмотря на то, что данные едва ли когда-нибудь будут так же широко продаваться, как нефть, технологические компании продолжают попытки облегчить этот процесс. Amazon Web Services (AWS), отделение облачных вычислений гиганта электронной коммерции, недавно запустило торговую точку, которая преследует цель сделать торговлю данными как можно проще. Ее работа напоминает интернет-магазин приложений для смартфонов: покупатели подписываются на каналы, принимают лицензионные условия, а AWS обрабатывает оплату.

Борцы движения за “открытые данные” подталкивают организации к раскрытию своих данных

Cравнение с солнечным светом или подобными ему ресурсами, такими как воздух и вода, становится более популярным. Многие люди, предпочитающие эту метафору, задаются вопросом: если данные действительно не поддаются превращению в ходовой товар, тогда зачем вообще пытаться это делать? Не лучше ли вместо этого обеспечить возможность как можно больше их использовать? В конце концов, это максимизирует благосостояние общества. Иначе говоря, никто не заставляет платить за солнечный свет.

Эта аргументация уже породила то, что называется движением за “открытые данные”. Его поборники подталкивают организации и университеты к тому, чтобы выкладывать свои данные в открытый доступ для более широкого их использования, например, стартапами. Сегодня большинство правительств, на федеральном или иных уровнях, хвалятся проектами открытых данных, хотя качество предоставляемых данных существенно отличается.

А совсем недавно начали публиковать свои данные и компании. Несколько организаций, работающих с беспилотными автомобилями, поделились информацией, собранной их транспортными средствами. “Чтобы исследователи задавали правильные вопросы, им нужны правильные данные”, – считает Драгомира Анжелов (Dragomir Anguelov), главный научный сотрудник Waymo, фирмы, которая это сделала (принадлежащей компании Alphabet, учредителю Google, одной из компаний). Другие работают над технологией, позволяющей облегчить такое коллективное пользование данными: Microsoft и другие производители программного обеспечения скоро начнут реализацию того, что называют “инициативой по обеспечению открытого доступа к данным”.

Некоторым такие усилия представляются началом движения за открытые исходные коды для данных, по аналогии с движением, занимающим в настоящее время значительный сектор индустрии программного обеспечения. И Microsoft особенно хочет, чтобы это случилось. “Нам нужно демократизировать ИИ и данные, на которые он полагается”, – пишет Брэд Смит (Brad Smith), президент Microsoft в своей недавно опубликованной книге Tools and Weapons (“Инструменты и оружие”). Неудивительно, что в этой позиции также имеется некоторый оттенок личной выгоды: Microsoft не зарабатывает большие деньги на самих данных, но делает это на инструментах и услугах, обрабатывающих данные.

Подобно сравнению с нефтью, аналогии данных с солнечным светом не безупречны: у открытых данных также есть свои ограничения. Что касается личных данных, основным ограничением являются постоянно ужесточающиеся законы, например Общий регламент по защите данных ЕС (GDPR), а также Закон Калифорнии о защите персональных данных потребителей (CCPA). Для корпоративных данных проверки имеют экономическое значение по своей природе: генерация хороших данных стоит дорого, кроме того, они могут слишком многое раскрывать о продукции фирмы. “Компании будут принимать в высшей степени стратегические решения о том, какие наборы данных им делать общедоступными, а какие сохранить для себя”, – объясняет Майкл Чуи (Michael Chui) из McKinsey Global Institute.

Отделить то, чем можно безопасно поделиться, от того, что следует строго охранять, будет сложно, но со временем технология упростит принятие таких решений. “Дифференцированная конфиденциальность”, например, заменяет один набор данных другим, содержащим другую информацию, но имеющим такие же статистические схемы. “Гомоморфное шифрование” позволяет алгоритмам обрабатывать данные без их расшифровки. А блокчейны, являющиеся специальными базами данных такого рода, на которых базируются многие цифровые валюты, позволяют людям и компаниям точнейшим образом управлять тем, кому к каким данным разрешить доступ, и отслеживать, кто это проделал.

Эти технологии понемногу разворачиваются. Инициатива Decode, до прошлого года финансировавшаяся Европейским союзом, использовала их комбинацию для создания инструментов, позволяющих людям контролировать данные, которые они генерируют и собирают о своей среде, например, об уровнях шума и качестве воздуха. Они проходят тестирование в Амстердаме и Барселоне. Oasis Labs, еще один стартап в Сан-Франциско, создал нечто подобное для данных о здоровье. Его первый сервис позволяет пользователям передавать в дар исследовательским проектам генетическую информацию.

Джени Теннисон (Jeni Tennison), возглавляющей Open Data Institute, научно-исследовательское учреждение, базирующееся в Великобритании, отмечает, что нужно скомбинировать множество наборов и потоков данных, чтобы достигнуть понимания. Как дороги общего пользования или платные магистрали, или закрытые клубы.

Однако для создания этих “клубных ресурсов” будет недостаточно одной только технологии. Им также нужны институты, которые обеспечивают то, что Теннисон называет “обслуживанием данных”. Доверительные фонды данных, кооперативы данных, хранилища персональных данных – все это отличается в деталях, но идея, по существу, одна и та же: они обеспечивают управляющую структуру для организации доступа к данным таким образом, который учитывает интересы тех, кто создает и использует данные определенного сорта.

Такие клубы данных начали возникать. Midata – это шведский кооператив, который собирает данные о здоровье своих членов и управляет этими данными. На Тайване Одри Танг (Audrey Tang), министр по цифровым технологиям, создал постоянно действующий “Президентский хакатон” для налаживания “сообществ данных”, в том числе несколько – для данных о состоянии окружающей среды. В Финляндии инновационный фонд Sitra открыл аналогичный конкурс, чтобы помочь положить начало “справедливому обмену данными”.

Новое на старом континенте

Большинство проектов все еще остаются мелкими и существуют на незначительные общественные средства, что вызывает сомнения в том, что они когда-нибудь станут значительной частью экономики. Но станут они успешными или нет – это вопрос политической воли, полагает Франческа Бриа (Francesca Bria), создательница Decode. Она доказывает, что большим городам особенно необходимо создавать альтернативы большим онлайн-платформам, которые относятся к собираемым ими данным как к собственным. Будучи ранее главным должностным лицом по технологиям Барселоны, она сделала этот город образцовым в плане того, что возможно, и теперь этот опыт копируется по всей Европе. Дело не только в том, что жители Барселоны могут контролировать данные, которые город хранит о них, но и в том, что поставщики должны добавлять информацию, собираемую ими в ходе оказания услуг муниципальным общинам данных.

При условии соответствующих ограничений, ни одна из трёх экономик данных не будет доминировать, но они, по-видимому, будут иметь свои цитадели. В Америке к данным относятся как к нефти: кто их добывает, тот и владеет ими. Китай – несмотря на то, что он также имеет жадные до данных онлайн-платформы, включая Alibaba и Tencent, – ярчайший пример, как данные являются общественным благом. Они, в конечном счете, контролируются правительством, которое стимулирует фирмы к объединению некоторых типов данных в общий фонд, например, данные о здоровье. В Европе многие регуляторы пришли к решению рассматривать данные как инфраструктуру.

Новая Европейская комиссия в Брюсселе имеет большие планы поддержки создания доверительных фондов данных. Луукас Ильвес (Luukas Ilves), соавтора отчета для фонда Sitra в Финляндии, отмечает, что это звучит так, будто ЕС собирается приговорить себя оставаться отсталым в техническом отношении, но “cправедливая экономика данных”, учитывающая интересы граждан и потребителей, которые будут вырабатывать значительную часть “топлива” будущего, может оказаться достаточно конкурентоспособной. Если люди, как и фирмы, смогут доверять инфраструктуре данных континента, они будут согласны делиться более значительным количеством данных более высокого качества, что будет означать улучшение услуг для каждого. Если бы мог начаться такой “благородный цикл”, это совершенно перевернуло бы судьбы мира.

На мой взгляд, в статье выбрана довольно неоднозначная точка зрения рассмотрения данных как какой-то новой социальной и экономической сущности, хотя работа с данными не является чем-то фундаментально новым. Такой подход приводит к еще большим противоречиям в определении места данных в современных экономических и социальных системах. Существует такое понятие как Утиный тест, который говорит о том, что сущность какого-либо явления можно идентифицировать по типичным внешним признакам.
В данном случае, несмотря на отсутствие данных в финансовых отчетностях, данные ведут себя как типичный актив, так как и частные компании, и общественные организации, и государства могут ожидать определенный ROI от использования данных. Такой взгляд на данные, на мой взгляд устраняет ряд противоречий в отношении того, как данные должны быть использованы.
Коммерческие компании, очевидно, хотят получать нерыночные преимущества за счет использования своих данных, и приведенный в статье случай с выкладыванием данных в открытый доступ никак не противоречит этому тезису. Государство же, напротив, заинтересовано в открытии определённых данных для обеспечения общественного благосостояния. В данном контексте, аналогия с платными и бесплатными дорогами, приведенная в статье, представляется достаточно точной.

Сергей Свиридов, Директор по исследованиям и разработкам компании "Цифра".