{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

Как big data management помогает бизнесу расти и зарабатывать больше: примеры компаний из разных отраслей в РФ и мире

Мы полгода изучали рынок управления большими данными, чтобы сделать data management платформу. Почему в РФ все плохо с данными, как от этого страдает бизнес, что значит грамотно управлять данными, как получать от этого пользу и с чего начать. Простым языком, с примерами и ссылками.

Константин Могилевкин
основатель satorilab.ru и low-code платформы для упрощения работы с данными DLH (Телеграм)

Зачем бизнесу управлять Big Data

На самом деле термин Big Data очень расплывчатый. Big Data означает «большие данные», но смысл намного шире. Это нетипизированные неструктурированные или слабо структурированные данные, которых очень много. Как явление бигдата (буду писать так для упрощения) — это, по сути, новая эпоха работы с данными.

Грамотное управление бигдатой упрощает работу специалистов, повышает результативность и скорость процессов, позволяет сэкономить кучу денег.

Увы, российский бизнес и государство плохо представляют, зачем им управление данными и какую пользу они могли бы получить. Гиганты вроде Сбера и МТС уже создают и применяют big data management решения, но даже в среднем бизнесе дата-менеджмент пока толком не прижился.

Задача статьи — попробовать изменить эту ситуацию и рассказать больше о том, какую пользу бизнес может извлекать из грамотного дата-менеджмента.

Проблемы управления данными в России

1. Некачественные данные

Недавно я общался с несколькими CDO из разных российских компаний, это топовые эксперты в datatech. Один из них сказал, что для РФ некачественные данные — это норма. Под некачественными я имею в виду сразу много всего. На самом деле это целый ворох проблем:

  • Ошибки в форматах данных: путаница в единицах измерения и форматах дат и времени. Однажды эта проблема вызвала сбой в программе спутника.

  • Ручной сбор и сортировка. Как следствие — формальное отношение сотрудников к внесению исходных данных. Если они что-то пропустили и ошиблись, то не обращают на это особого внимания.

  • Данные хранятся в разных источниках, из-за чего они могут дублироваться и противоречить друг другу. В первом случае возникает новая проблема: приходится хранить больше данных, чем нужно.

  • Данные занимают слишком много места из-за отсутствия нормализации. Например, огромные таблицы с профилями клиентов, продолжающие разрастаться.

Когда данные были текстовыми, а их объём был относительно небольшим, для хранения достаточно было эксель-таблиц и простых баз данных. Но с тех пор вырос объём данных, появились новые свойства и новые форматы. И если заносить, хранить и структурировать данные о клиентах относительно легко, то с появлением аудио, видео-информации, переписок в мессенджерах и другой неструктурированной информации задача сильно усложнилась.

Кроме того, если данные заносятся в разные системы разными людьми это превратится в хаос, из которого не получится быстро достать все что нужно.

❌ Результат — долгий запуск продуктов. Неясно, в каких системах какие данные лежат. Не получается быстро вытащить нужное: например, для исследования, маркетинга или пиар-акции.

Скажу больше. В одном достаточно крупном банке есть целые отделы из 20–30 человек, которые собирают данные из электронных писем в эксель-документы. Естественно, при таком ручном труде неизбежны ошибки. Эти ошибки накапливаются, и когда на стол высокому руководству падает отчет то с виду всё будет окей. И даже если ошибки обнаружат, не всегда можно будет найти их источник.

Пример: путаница с данными в банке

Банки используют несколько видов систем: среди них CRM, а еще CBS (core banking system) — автоматизированная банковская система (АБС), которая хранит информацию в основном о счетах клиентов.

По идее, эти две системы должны быть связаны, но часто они хранят противоречащие друг другу данные. Например, данные разных филиалов не связаны, поэтому для продления карты клиент вынужден ехать именно в тот филиал, где он получал эту карту, а не в тот, который для него удобнее.

Сделаем паузу на офтоп и подумаем о безопасности. Не так страшно, если данные в экселе на компьютере. Страшно, если они в облаке от не дружественной России компании, например, в Google Sheets или Airtable. Сервис привычный, но однажды нас могут просто отключить. Есть прецеденты с более мелкими компаниями: например, Максиму Ильяхову, автору «Пиши, сокращай», компания Mailchimp отключила доступ к рассылкам на 108 тысяч адресатов и контенту за 8 лет. Это произошло одним днём и без предупреждения.

Проблемы некачественных данных можно решать с помощью data warehouse (DWH) — структурированного хранилища данных. У нас в стране его тоже применяют, но к сожалению, не так часто, как хотелось бы.

Главная мысль — если не управлять качеством данных, рано или поздно они превратятся в бесполезный хаос.

2. Не используются мировые стандарты дата-менеджмента

Данные важно не только правильно собирать, но и правильно управлять ими. Раскладывать по слоям по разным принципам: например, в некоторых отчетах тебе нужны данные здесь сейчас в онлайн режиме, в других — раз в месяц. Можно использовать и другие принципы для формирования логических слоёв (еще это называют лямбда- или каппа-архитектуры).

Еще важно внедрять организационные механизмы: как минимум назначить ответственных за ту или иную базу, а если в ней заведутся некачественные данные — срезать KPI.

❌ Результат — несистемный подход к управлению данными. Эти элементарные принципы не соблюдаются, в результате в отчетах появляется куча ошибок, данные остаются бесполезными, занимают всё больше места и так далее.

Перечисленные выше и некоторые другие принципы образуют определенные стандарты. Уже есть несколько мировых стандартов работы с большими данными, которые в РФ пока не особо популярны.

Стандарт облачного хранения Snowflake. Snowflake — популярное data-tech-cloud решение, в котором данные хранятся определенным образом и их очень легко вытащить в нужном формате. В США почти все компании из квадранта Gartner или Forrester находятся с ними в коллаборации. Snowflake одна из самых быстрорастущих datatech-компаний в мире и, по сути, законодатель стандарта работы с данными в облаке.

«Книга знаний» по управлению данными DMBoK. «Книги знаний» (book of knowledge) — мировые стандарты по работе с чем-либо. Например, стандарт проектной работы PMBoK (project management book of knowledge) появился благодаря NASA: они еще в начале работы поняли, что если управлять командой из тысяч человек и бюджетом в миллиарды долларов без четкой методологии, легко сесть в лужу. Нужна была система по выстраиванию процессов и управлению проектом — вот они и сделали PMBoK.

По данным тоже есть своя «книга знаний» DMBoK — data management book of knowledge, мировой стандарт, родившийся внутри DAMA, открытого комьюнити экспертов по данным и разных стран. В DAMA состоят эксперты российской платформы управления данными Unidata. Именно их эксперты перевели на русский язык стандарт PMBoK и написали отличную книгу «Ценность ваших данных».

Минутка грусти по поводу отставания. Unidata как компания появилась только в 2014 году. А первая зарубежная EDP — Informatica — еще в 1993 году. Должность CDO (chief data officer) в России появилась только в 2018 году, на Западе CDO существовали уже с первой половины двухтысячных.

3. Неподходящие решения для управления данными

Некоторые компании активно внедряют Business Intelligence (BI) решения, которые помогают анализировать данные, строить дашборды и отчеты. Однако BI не решает предыдущие проблемы, из-за которых возникают ошибки.

❌ Результат — недоверие к данным. BI можно сравнить с калькулятором, который не ошибается в расчетах, однако если завести в него неверные данные, решение тоже будет неверным. Руководители замечают эту проблему, когда смотрят на дашборд и видят, например, неактуальные данные. Хотя виноваты не данные, а неверное решение.

Построение отчета — это лишь вершина айсберга. Данные еще нужно правильно собрать и обработать.

Пример: система управления данными в РФ

Есть одна государственная система управления данными, на разработку которой потратили 1+ млрд рублей. Чиновники видят данные по разным областям, за которые они отвечают. Данные «текут» снизу вверх: от региональных министерств до министерств федеральных и, затем, до самих министров.

Вроде бы отличная идея: всё наглядно и понятно. На самом деле отчеты строятся на основе данных из экселек. Одна ошибка — и отчет будет отражать неверные данные. Звучит жутко, но я видел это своими глазами.

Короче, BI-системы просто визуализируют готовые данные. И прежде чем показывать, их нужно правильно структурировать, связать и хранить. Иначе мы получим красивые, но бессмысленные картинки.

4. Самодельные немасштабируемые решения вместо готовых

Эта проблема вытекает из второй. Многие компании все еще вкладывают кучу денег в самописные системы сбора, хранения, поиска и обработки данных. В то время как на рынке давно присутствуют отличные продукты, которые работают и решают задачи бизнеса на высоком уровне.

❌ Результат — нерабочее решение и деньги на ветер. Это очень сложная и дорогостоящая задача. Сложная, потому что нет методологии использования, а дорогостоящая, потому что коробочные решения уже учли все те грабли, на которые внутрикорпоративным разрабам только предстоит наступить.

В мире уже есть несколько компаний, которые помогают бизнесу управлять данными. Например, Informatica — индийско-американская EDP-компания (enterprise data management — управление корпоративными данными), основанная еще в 1993 году. Топ-1 игрок в сфере EDP с отличными кейсами.

В этой сфере есть не только энтерпрайз-решения, но и более простые продукты в облачном формате. Например, Databricks.

Даже если внедрять готовое решение своими силами, без подрядчика, пользы будет намного больше. В РФ уже есть компании, которые внедряют продукт Informatica, например, DIS Group.

5. Отсутствие культуры профессии

Многие знают, кто такой технический директор или CTO (chief technology officer, технический директор). Кто-то даже слышал про CDTO (сhief digital transformation officer), отвечающего за цифровую трансформацию в компании. Но мало кто знает про CDO (chief data officer, директор по данным). И если технический директор как-то может влиять на принятие решений внутри компании, то CDO — не может. Хотя его работа не менее важна.

❌ Результат — бардак в работе команды. Какой-нибудь начальник говорит: «Теперь мы будем собирать новые данные для отчета». Дата-инженер Петя добавил столбец в БД. Больше никто об этом столбце не знает, все работают дальше. В отчете у руководства просто какая-то невероятная цифра, и никто не понимает, откуда она там взялась. У всех начинает подгорать, потому что гендир обещал экзекуции. И вот две недели техспециалисты всем штатом ищут ошибку. А ведь один из сотрудников просто добавил атрибут. И это еще повезет, если он скажет об этом сразу.

Яркий пример подобной проблемы у CTO. Верховное руководство решило запустить новую инициативу — например, новый продукт для клиентов. Придумали название, описали функциональность, даже назвали срок и выделили 20 миллионов на рекламу. А CTO даже не в курсе, его просто поставили перед фактом. Он смотрит на задачу и честно говорит: «Ребята, мы не успеем». Но кто станет его слушать? Всем пофигу, надо и всё тут.

Пример с Мосбиржей (хороший)

Однажды Мосбиржа привлекла меня для ревью бизнес и технической архитектуры одного из крупных проектов. И вот там был великолепный CDO — настоящий рокер. Выстроил очень крутую работу с данными путем создания data warehouse, где была возможность предоставлять ключевых бизнес-показатели практически в реальном времени.

Мосбиржа совершенно не гнушается внятной работы с данными, ведь это базис для их клиентов.

CDO должен быть полноценным участником бизнеса, а не существовать в отрыве от него, как это обычно бывает. И именно CDO должны решать, как и где хранить данные, для чего их использовать и каким образом.

Как эти проблемы решили отечественные компании

В России есть компании, которые ценят правильный дата-менеджмент и вкладывают в него деньги, получая больше прибыли и экономя огромные ресурсы. Вот несколько примеров.

Каталоги данных в Тинькофф. У Тинькофф есть собственный каталог данных — Data Detective. Он позволяет быстро находить информацию, которую банк собирал со своих платформ на протяжении 15 лет. Кейс o Data Detective на Виси

Из презентации: «Это карточка таблицы, которую мы нашли через поиск слева. Она делится на две зоны: центральная содержит в себе всю информацию по объекту данных, а в правой панели отображаются теги и информация по связям объекта с другими карточками»

Главная ценность проекта, по словам Тинькофф, — экономия времени аналитиков на поиск данных. По опыту других компаний, аналитики тратят до половины времени на поиск информации: потому что она лежит в разных источниках, в разных форматах и т. п. «Детектив» сам собирает информацию из нужных источников и отдает аналитику в удобном формате. Интересно, что вначале у сотрудников внедрение дата-каталога вызвало сопротивление, но постепенно они прониклись его ценностью и пользуются с удовольствием. Большинство даже переехало с Confluence (система для создания внутренней базы знаний) на DD.

У Тинькофф есть и другая крутая штука — Data Lineage. Это система, позволяющая отследить связи между данными в различных базах и других источниках. Связи визуализированы, их можно менять в визуальном редакторе. Кейс о Data Lineage на Хабре

Хорошая иллюстрация из статьи: Как выглядит работа аналитика в идеальном мире
И как на самом деле

Оба этих продукта помогают Тинькофф быстрее запускать продукты и своевременно принимать важные решения на основе данных.

У Сбера, кстати, в плане данных тоже всё хорошо. Но они не создавали своего решения, а купили компанию-разработчика Data Lab — это приложение для специалистов по обработке данных.

СУБД Clickhouse от Яндекс. Для Яндекса данные — основа основ. Понимая это, они сделали Clickhouse — систему управления базами данных, которая помогает сохранять гигантские объёмы данных без агрегации и быстро получать отчеты в любых разрезах. Решение получилось действительно классным, на мировом уровне. Описание продукта на сайте Яндекса

Недавно Яндекс выкатил еще более крутое решение — Yandex DB.

Одна группа компаний занимается телеком-маркетингом и в своей системе хранит профили клиентов с множеством данных: признаки для таргетирования, какая реклама показывалась этому клиенту и так далее. В день система анализирует терабайты данных. Решение на основе «Кликхауса» помогает быстро вытаскивать нужные данные, при этом не нагружая саму систему.

Какие datatech-решения внедряются за рубежом

Здравоохранение. Уже упомянутая Informatica сделала для США государственную систему здравоохранения.

Добыча полезных ископаемых. Collibra помогла алмазодобывающей компании Anglo American найти месторождение алмазов на $1 млрд. Данные о геологоразведке были проанализированы за 1 час. Хотя на сбор данных и разработку системы, естественно, времени было потрачено намного больше.

Электроэнергетика. У Collibra — системы управления данными — много кейсов в области увеличения эффективности дистрибуции электроэнергии в Европе. Распространять электричество очень затратно из-за больших потерь при передаче по проводам. Поэтому на Западе заботятся об энергоэффективности домов. На самом деле так можно сохранять огромные деньги, потому что эффективность дистрибуции электроэнергии можно увеличить на десятки процентов.

Сейчас подробнее разберем последний пример, как это может работать у нас. Возьмём «МРСК Урал», которая подаёт энергию в сотни тысяч домов. Например, данные собираются в Эксель, из них готовится отчет, его раз в месяц обсуждают на ежемесячном совещании и принимают важные решения. Увидели снижение эффективности — решили что-то с этим сделать. Чтобы увидеть, насколько действенным было принятое решение, потребуется еще месяц: именно столько нужно для сбора новых данных.

А можно было бы сделать так. Данные собираются с нужным периодом (одни в реальном времени, другие раз в день и т. п.) Есть автоматическая какая-то система, которая реагирует на изменения и сразу уведомляет нужных специалистов по нужным каналам. И тогда компания может реагировать намного быстрее и не терять прибыль.

Что сделать, чтобы большие данные начали работать на компанию, а не наоборот

1. Поставить задачу. Понять, зачем вам управлять большими данными, какую пользу вы намерены получить.

2. Провести аудит. Для начала стоит разобраться, в каких базах и что вы храните. Есть ли у вас общий подход к работе с данными. Какими инструментами вы пользуетесь, есть ли схема всех информационных потоков в компании: вдруг какому-то отделу нужны данные, которые есть у другого отдела, но тот не даёт к ним доступа? Начните с малого и проведите организационно-технический аудит того, что у вас происходит с данными. Сейчас даже придумали концепцию для этого — DataMesh.

Я уверен, что опытный CDO или CDTO, впервые пришедший в компанию на эту должность, в первую очередь начинает с аудита. И даже если он есть, все равно нужен аудит от стороннего специалиста.

3. Подобрать решение. Вот вы провели аудит и выявили самые проблемные места. Обычно это разрозненное хранение данных, из которого вытекают все остальные проблемы. Например, данные для отчета опаздывают на несколько дней, и компания теряет деньги. В этом случае нужно начать с выстраивания единого Data Warehouse — единого структурированного хранилища, в котором они будут храниться в нужных местах, в нужном формате и с нужными атрибутами. Пока это не сделано, дальше идти смысла нет.

В других случаях понадобятся другие решения. Может, стоит внедрить что-то готовое от зарубежных Informatica, Ataccama или Collibra или отечественной Unidata, Datareon или Ростелеком.

Если интересны подробности о нашей datatech-платформе или вы хотите обсудить решение для вашего бизнеса, пишите в Телеграм.

Поделитесь вашим опытом. Расскажите, с какими кейсами внедрения Data Management решений вы лично сталкивались и какие эффекты были достигнуты? Очень интересно услышать мнение профессионалов и практикующих экспертов Datatech.

0
7 комментариев
Написать комментарий...
Андрей Поляков

Отличный материал! Только вся проблема на мой взгляд начинает расти из-за не понимания принципов использования данных. Я часто встречал ситуации, когда начальники просят вот такой отчет, а потом другой в тридесятом разрезе, на сбор и обработку данных которых уходит куча времени, а потом оказывается, что они бесполезны.

Так что рыба гниет с головы. Данные можно структурировать только тогда, когда есть понимание какие данные нужны регулярно и для принятия каких решений.

Ответить
Развернуть ветку
Владимир Корнев

О, накрученные лайки

Ответить
Развернуть ветку
Александр Максимов

ого, если 2 лайка в вашем понимании - это накрутка, мне страшно представить что для вас значат 1000лайков - всемирный заговор, илюминаты и т.п.

Ответить
Развернуть ветку
Роман Рабочий

О, завидующий токсик с расщеплением личности.
Я что то реально ржу...
брысь отсюда )) ну ты понял да?

Ответить
Развернуть ветку
Дмитрий

Ищу аналитика, где взять его?

Ответить
Развернуть ветку
Чечёточник

Данными можно управлять только тогда, когда это кому-то нужно, и не просто один раз нужно, а на постоянной основе. Такой запрос возникает только как ответ на запрос на эффективность (Тинькофф как пример из статьи). Эффективность не то чтобы сильно востребована в российских госах, да и у частников с этим сложности.

Ответить
Развернуть ветку
Александр Лапов

Согласен, работаю в строительной отрасли и в мелких и средних подрядных компаниях никто даже и не задумывается чтобы на постоянной основе выстроить сбор данных, а там зарыт такой потенциал более эффективного использования ресурсов и ,соответственно, снижения себестоимости работ.

Ответить
Развернуть ветку
4 комментария
Раскрывать всегда