Свет, нефть и инфраструктура, или Как понимать большие данные

Всем привет! Мы — команда компании Platforma, совместного предприятия ВТБ и Ростелекома. Мы разрабатываем инструменты для бизнеса на основе больших данных: сервисы персонализации и лидогенерации, геопространственного анализа, прогнозирования спроса, рекламные и скоринговые инструменты, сервисы для дистанционной оценки имущества, а также развиваем дата-инфраструктуру. И как несложно догадаться, мы посвятим свой блог Big Data и всему, что с ней связано.

Big... что?
Данные — новый черный
Данные как свет
Данные как инфраструктура
Как понимают большие данные в России
Итог

Для начала давайте разберемся, что же такое Big Data и как ее понимать. А то с ней прям как в анекдоте — все о ней говорят, а занимается только учитель.

Свет, нефть и инфраструктура, или Как понимать большие данные

Под определением «большие данные» сегодня понимается не только и не столько сами данные, представленные в виде огромных массивов, сколько всевозможные технологии переработки колоссальных объёмов информации. Одно из самых свежих определений гласит: «Большие данные — это когда для обработки данных требуются средства параллельных вычислений». Параллельными вычислениями, в свою очередь, называют способ организации компьютерных вычислений, при котором программы разрабатываются как набор взаимодействующих вычислительных процессов, работающих одновременно.

Хотя термин Big Data появился ещё в 1990-е, в популярный обиход он вошёл где-то в самом конце позапрошлого — начале прошлого десятилетия. Словосочетание «Big Data» в качестве определения большого массива данных, нуждающихся в обработке, впервые употребил редактор журнала Nature Клиффорд Линч в спецвыпуске от 2008 года, посвященном взрывному росту мировых объемов информации. Линч, как и его знаменитый режиссер-однофамилец, нащупал важнейший тренд, который с годами только крепнет.

Бизнес усмотрел в аналитике больших данных крупные возможности.

По данным IBS, к 2008 году было накоплено 0,18 зеттабайта данных (1 зеттабайт — это 1 млрд терабайт), к 2011 году — 1,76 зеттабайта. В 2015-м в мире каждые десять минут генерировалось столько же данных, сколько за весь 2003 год. Сейчас объем данных в интернете удваивается каждые 1,5 года. По оценке сервиса Statista, в 2020 году интернет «весил» 59 зеттабайт, а уже в 2025 году его объем составит свыше 200 зеттабайт.

Аналитики прогнозировали, что внедрение технологий обработки больших данных окажет существенное влияние на информационные технологии в производстве, здравоохранении, торговле и государственном управлении. Сейчас уже можно сказать, что в этом они были правы: благодаря развитию технологий анализа больших данных изменения в этих сферах произошли весьма существенные. О них постараемся подробнее рассказать в следующих постах.

Развитие технологий продолжается, как продолжаются поиски новых путей монетизации больших данных. К настоящему моменту выработан устойчивый набор определяющих характеристик больших данных, известный в англоязычных источниках как 5V — Volume, Variety, Velocity, Veracity, Value (объем, разнородность, скорость генерации, достоверность, ценность). Характеристики эти, в целом, говорят сами за себя. Пояснения может потребовать только понятие «ценности»: речь идёт о ценности информационного дистиллята, то есть, очищенной от всего лишнего информации, которая может быть получена путём обработки и анализа крупных массивов данных.

Также сформировались три наиболее популярные концепции понимания Big Data: данные как нефть, данные как солнечный свет и данные как инфраструктура.

Сравнение с нефтью хоть и набило многим оскомину, но все-таки не лишено смысла: во-первых, данные — это, с одной стороны, «топливо» пост-индустриальной экономики. С другой, чтобы превратиться в нечто полезное, большие данные нуждаются в очистке, и здесь снова уместны параллели с нефтью. Кроме того, и сами данные, а чаще — практические инсайты, полученные в результате их анализа, — покупаются и продаются, хотя и с куда меньшим успехом, чем ожидалось лет десять назад.

Самый успешный и обширный рынок, где торговля данными процветает вовсю, это онлайн-реклама. По данным издания The Economist, в 2018 году обороты на этом рынке составляли порядка 178 млрд долларов, большая часть приходилось на торговлю персональными данными. Брокеры данных, торгующие с банками и телекомами, также очень неплохо зарабатывают на своей деятельности — их прибыль, по подсчётам компании Strategy&, достигает 21 млрд долларов в год.

Наконец, и Google, и Facebook выручают очень существенные средства на продаже компаниям-рекламодателям инсайтов о том, кто является наиболее выгодной целевой аудиторией.

И тем не менее, у больших данных есть своя специфика, не позволяющая сравнивать их только с нефтью или каким-то другим материальным товаром. Это многообразие их источников, затрудняющее определение законного владельца, и отсутствие универсальных критериев оценки, в результате чего побочный продукт жизнедеятельности одной компании может быть золотым дном для другой.

Несмотря на проблематичность сравнения с нефтью, оно — по крайней мере, пока, — доминирует в США.

Популярность между тем набирают и другие концепции. Одна из них сравнивает большие данные с солнечным светом, воздухом или водой, то есть общим (как вариант — природным) благом. Данные представляются ресурсом, в котором нуждаются все, но который при этом плохо поддаётся оценке и тем более какой-либо приватизации. Сторонники этой концепции указывают, что данные как ресурс сложно превратить в товар, а потому проще и правильнее обеспечивать максимально рачительное и продуктивное их распространение и использование.

Как отмечается в статье The Economist, эта концепция породила движение «открытых данных», выступающее за то, чтобы организации и университеты бесплатно раздавали доступ к своим данным широкому кругу пользователей (например, стартапам). Большинство правительств, общенациональных и локальных, сегодня в той или иной степени поддерживают проекты открытых данных, но качество таких данных может существенно разниться.

Крупный бизнес в той или иной степени также поддерживает эту концепцию: Microsoft, Adobe и SAP, например, уже выступили с инициативой, связанной с открытыми данными.

Но и у сравнения с солнечным светом есть свои недостатки. Всё опять упирается в разнообразие данных и различные ограничения доступа к ним — по законодательным или экономическим причинам. В Европе и США стремительно нарастает слой ограничительного законодательства, нацеленного на защиту персональной информации. Со своей стороны, крупные корпорации готовы делать публичными зачастую лишь очень ограниченную часть генерируемых ими данных, чтобы избежать утечки секретной информации.

Основной проблемой в итоге оказывается адекватное разделение данных на открытые и закрытые. Технологии для этого активно разрабатываются по обе стороны Атлантики, однако, как пишет Economist, одних только технологий недостаточно. Потребуются также организации, которые будут заниматься регулированием доступа к данным — таким образом, чтобы учитывать интересы и их производителей, и потребителей.

Особняком стоит Китай: как пишет The Economist, там в силу политико-экономических причин доминирует отношение к данным именно как к общественному благу, и правительство — ключевой регулятор всего, что связано с информацией на территории КНР, — требует от коммерческих компаний в обязательном порядке делать общим достоянием многие виды данных (например, информацию, относящуюся к здравоохранению).

Наконец, третья доминирующая концепция — это большие данные как инфраструктура. Потоки данных рассматриваются как цифровой вариант транспортных магистралей самого разного рода, которые требуют общественных инвестиций и новых учреждений для эффективного управления.

Этот подход в последнее время стал пользоваться повышенной популярностью в Великобритании и Европе — в первую очередь, у всевозможных регулирующих органов. Там исходят из того, что эффективная инфраструктура позволит расширять и совершенствовать экономику информации, и, возможно, это один из самых практичных подходов к вопросу.

В России, как впрочем, и везде, большие данные — прерогатива крупнейшего цифрового бизнеса.

Ещё в 2018 году «МегаФон», Mail.ru Group, oneFactor, «Яндекс» и Тинькофф-банк объявили о создании Ассоциации участников рынка больших данных (ныне просто Ассоциация Больших Данных), целью которой стала выработка единых принципов и стандартов обработки, хранения, передачи и использования больших данных. К ней также присоединился Сбербанк, ВТБ и «Ростелеком», организации из числа самых крупных операторов больших данных в стране.

При этом государство тоже хочет быть и в теме, и в доле. Весной этого года Министерство цифрового развития РФ анонсировало планы создать централизованного государственного оператора больших данных, произведённых и накопленных министерствами и ведомствами страны. Предложение было представлено на заседании рабочей группы АНО «Цифровая экономика». Как писали «Ведомости» в первой половине года, госоператор будет формировать дата-сеты на основании запросов разработчиков ИИ, осуществлять их анонимизацию и обезличивание, а также обеспечит создание и эксплуатацию инфраструктуры доступа к государственным наборам данных. Помимо этого планируемый госоператор будет определять, какие данные каким заказчикам из коммерческой области предоставлять.

Это может означать, что государство попытается создать игрока рынка, который объединит сразу все три концепции больших данных — и товарную («нефть»), и ресурсную («солнечный свет»), и инфраструктурную. Но даже при наличии единого госоператора российский рынок больших данных не будет полностью замкнут на него.

Мы решили спросить экспертов, какая именно из прижившихся в мире концепций может оказаться ближе всего для России? Или, быть может, у нас всё будет выстроено каким-то уникальным образом?

На наш взгляд, данные скорее похожи на газ. Как газ делает дома теплыми, светлыми и уютными, так и данные способны сделать нашу жизнь более удобной и комфортной за счет создания на их основе по-настоящему персонализированных сервисов.
При этом, как и в случае с газом, любое неосторожное обращение с данными, а тем более их утечка, может привести к взрывоопасной ситуации. Здесь можно провести прямую аналогию: закрытый в отдельной емкости газ не даст ни тепла, ни денег, выпущенный без контроля — взрывоопасен, значит, нужна четкая организация работы и поставок.
Для того, чтобы из данных получился конечный продукт, так же нужна слаженная, возможно, централизованная, работа специалистов из разных областей, взаимодействие, а не противостояние, участников рынка и благоприятная регуляторная среда. Чтобы подчеркнуть эту проблематику в работе с данными, мы запустили тренд DataFusion.
Ещё один схожий признак: цены как на данные, так и на газ в последнее время обновляют исторические максимумы — это означает, что эти отрасли ожидает большое будущее.
Максим Коновалихин

Российскому бизнесу не всегда комфортно говорить о больших данных как о нефти — это и понятно: нефть — это ресурс, доступ к которому плотно контролирует государство, а на больших данных хотят и могут зарабатывать многие. Но все же именно это — самое напрашивающееся сравнение в условиях экономики, заточенной на процессы добычи, переработки и — в самом широком смысле — «обслуживании труб», по которым течет ресурс.
По этому сценарию, похоже, и идёт развитие рынка больших данных в стране: ресурс добывается крупными цифровыми экосистемами, перерабатывается внутри них или компаниями-сателлитами, а граждане в качестве косвенной ренты получают всё больше удобных цифровых сервисов. Не встроенные в систему компании к процессу не допускаются: здесь можно вспомнить недавнее решение суда, запретившего Double Data собирать данные пользователей «ВКонтакте» для скоринга.
Но если с контролем над природными ресурсами все уже понятно, то на рынке больших данных степень зарегулированности пока остаётся под вопросом: пока участие в нём государства если и ограничивается недостатком экспертизы, то точно не отсутствием желания. Так, в Минцифры говорят о создании «фабрики данных», а в Минэкономики работают над «цифровыми песочницами», где обработку данных вообще выведут из-под привычных законов.
На мой взгляд, участие государства было бы полезно в части перераспределения выручки, создаваемой за счёт использования больших данных. Еще в 2017 году в The New York Times стоимость данных, генерируемых в течение года одним интернет-пользователем, оценивали в $1 тыс. В России уже предлагали выплачивать деньги напрямую пользователям или в виде скидок.
Сейчас в Великобритании и США всё чаще, особенно на фоне сверхприбылей цифровых гигантов во время пандемии, звучат предложения по введению специального налога на большие данные. Можно предполагать, что в России государство в любом случае не упустит контроля над новым ресурсным рынком — хорошо, если при этом и граждане получат не только косвенную, но и прямую финансовую выгоду.
Павел Белавин

Дело в том, что данные не однородны, ни в плане полезности, ни в плане чувствительности для их владельца. Например, сложно представить что в 2021 году кто-то всерьез считает что отметка «нравится» под популярным постом не станет достоянием общественности, не попадёт в статистику платформы и не будет использована для построения более успешной модели рекомендации. С другой стороны, фотография паспорта вашего соседа вряд ли должна быть публичной.
И то, и то данные, и то, и другое используется в анализе и решении задач как государства так и бизнеса.
На мой взгляд, общая задача выстроить правила, при которых с одной стороны будут обеспечены базовые права людей на безопасность и тайну, с другой — прогресс отрасли не будет постепенно замедляться за счёт ограничений в доступе к информации.
Конкуренция в данном случае видится лучшим решением: при большом количестве игроков рынок будет заинтересован получать максимум пользы из имеющегося массива данных, и естественным образом стремиться обогатить свои знания за счёт обмена. В случае монополии будет страдать как качество работы (зачем делать лучше если никто, кроме нас этим не занимается) так и безопасность пользователей (тяжело держать в тайне информацию, если все взаимодействие с ней идет через одну платформу).
На мой взгляд, в России в плане работы с данными архитектура построена примерно таким образом: часть информации можно отнести к «инфраструктуре» с главным интересантом в лице государства, часть к «нефти» и «солнечной энергии», более интересной для бизнеса и общества в целом. Вопрос в правильном распределении информации по этим блокам.
Главный вызов для всех нас состоит в соблюдении баланса между интересами бизнеса, государства и общества в плане обеспечения доступности к этим массивам данных и их использования.
Михаил Неверов

Мне кажется, что для больших данных можно найти огромное множество метафор. Точно больше трёх. Например, почему бы не сравнить бигдату с тканью? И то, и то ткут из миллионов нитей. Просто полотно ткани или набор данных — вроде уже что-то полезное, но трудноиспользуемое. И только когда из ткани или из массива информации строят и кроят конкретные модели, они становятся по-настоящему полезными. А учитывая разнообразие бизнесов, практически для каждого нужен будет уникальный раскрой — платье сшитое на заказ. А дальше встаёт вопрос: нужно ли каждому держать «портного» в штате? Стоит ли «шить» только из однокомпонентной «ткани», произведённой внутри, или смешать ее с другим сырьем?
Алексей Каштанов

Как видим, какого-либо единого понимания больших данных ещё не сформировалось, и даже наиболее распространённые концепции не могут претендовать на универсальность. В общем и целом мнения сходятся в том, что большие данные во всех отношениях неоднородны. Из-за этого бывает очень сложно, а то и невозможно применять какие-либо объективные критерии к их оценке, к определению полезности и значимости, а также чувствительности или даже опасности.

Описанные выше концепции пользуются большей или меньшей популярностью в разных регионах мира. Это зависит от исторических, политических и экономических факторов. Однако самое важное — это то, что в конечном счёте большие данные призваны служить общему благу, интересам всего общества в целом. Их невозможно полностью «приватизировать», и даже там, где в итоге будут сформированы государственные операторы больших данных, они вряд ли окажутся в состоянии контролировать этот ресурс целиком и полностью. Он слишком велик.

Свет, нефть и инфраструктура, или Как понимать большие данные

Содержание

Big... что?

Данные — новый черный

Солнечный — хит сезона, или данные как свет

Мы поедем, мы помчимся, или данные как инфраструктура

Как понимают большие данные в России

Итог