Как внедрять инновации качественно? Риски хранения и обработки данных, этапы внедрения Data Governance и Data Fabric

Как внедрять инновации качественно?  Риски хранения и обработки данных, этапы внедрения Data Governance и Data Fabric

Вот и подходит к концу 2023-й… Судя по всему, расслабиться и выдохнуть не получится: темпы развития технологий и требования бизнеса продолжают расти, экономику штормит, кроме того, нам пришлось резко развернуться в сторону импортозамещения. Что касается мировых трендов, то, согласно прогнозам IDC, в этом году инвестиции бизнеса в цифровую трансформацию вплотную приблизятся к 50% от общего объема вложений в ИТ. При этом компании оперативно переходят на облачные технологии. К примеру, выручка Yandex Cloud только за первое полугодие 2022 года выросла на 89%. Также, согласно Gartner, IDC и свежему отчету BARC[АЛД(1] , в топе трендов остаются контроль за эффективным и правильным использованием данных, а также AI&ML-решения и Data Fabric.

Перед значительной частью игроков рынка стоит вопрос: как в текущих условиях оперативно — за 1–2 года — провести цифровую трансформацию или хотя бы некоторые ее этапы? Давайте есть слона по кусочкам. Оставим цифровую трансформацию стратегам и CEO, ведь для каждой компании этот процесс уникален, а общие моменты всем давно известны. Лучше поговорим о ее ключевых элементах — внедрении Data Governance и Data Fabric.

Риски есть?

11 января 2023 г. из-за сбоя БД упала платформа Notice to Air Missions. В результате около 11 тыс. внутренних авиарейсов в США были отложены или отменены. Казалось бы, сейчас бизнес уделяет максимум внимания безопасности и надежности данных, но… Другой пример: 2 июля 2022 г. обрушилась сеть японского телеком-оператора KDDI. На 86 часов без связи осталась почти треть населения Японии — около 40 млн человек.

Возможно, дело в том, что ИТ — непрофильный бизнес Федерального управления гражданской авиации США и японского оператора связи, поэтому у них нет доступа к лучшим специалистам и технологиям?

Нет, похожие проблемы есть и у признанных лидеров рынка ИТ. 4 октября 2021 г. на шесть часов упал Facebook* и несколько связанных с компанией сервисов, включая Instagram* и WhatsApp. Шесть часов полной недоступности явно превысили все мыслимые SLA и вылились в потерю 99,75 млн долл. для Meta** и 6 млрд долл. лично для Цукерберга. После заявлений на самом высоком уровне из серии «Меры приняты, такого больше не повторится!» уже через четыре дня, 8 октября, случился второй сбой. Эти сервисы снова упали — сначала у пользователей возникли проблемы с загрузкой ленты, а потом и с публикацией постов и сообщений.

У Google дела идут не сильно лучше. 9 августа 2022 г. поисковик около часа был недоступен по всему миру. Сбой затронул порядка 1 400 серверов в более чем 40 странах, включая США, Австралию, Южную Африку, Израиль, некоторые государства Южной Америки, Европы и Азии. Далее последовали новые громкие заявления, что проблемы больше не повторятся, и новые «падения». Чего стоил масштабный сбой YouTube, Gmail и Google Docs 14 декабря 2022 г.! Оказалось, проблема была связана с хранилищем данных, к которому обращалась служба аутентификации пользователей.

На российском рынке сложилась похожая ситуация — к нам регулярно обращаются компании с аналогичными кейсами. Зачастую только регулярные сбои и проблемы мотивируют бизнес наводить порядок в ИТ-инфраструктуре.

Томас Зибель, визионер и ветеран ИТ-индустрии, миллиардер и создатель CRM-системы Siebel, в своей книге «Цифровая трансформация» пишет: «В C3.ai (ИТ-компания Зибеля — прим. ред.) мы нанимаем самых опытных на планете специалистов по Data Science и инженеров программного обеспечения. За последний год мы получили 26 000 откликов на 100 вакансий в сфере обработки данных и разработки ПО, мы провели 1700 собеседований и приняли на работу 120 человек. Чтобы нанять 1 специалиста DS, мы проводим собеседование с сотней кандидатов, все кандидаты обладают учёной степенью PhD, полученной в лучших университетах мира, опыт работы у многих из них составляет 5–10 лет, у нас очень талантливые сотрудники с блестящим образованием. Но даже у нас нет всех навыков, необходимых для успеха в этой динамичной сфере! Область исследования данных находится в зачаточном состоянии, инновации разрабатываются с огромной скоростью во всех направлениях — облачных вычислениях, глубоком обучении, нейронных сетях, машинном обучении, обработке естественного языка, визуализации данных и этике искусственного интеллекта».

В чем причина?

Может быть, все дело в третьем законе Паркинсона:

«Рост приводит к усложненности, а усложненность — это конец пути»?

Действительно, современные системы становятся все сложнее, а объем данных и нагрузка растут по экспоненте. Ответом на эти вызовы становятся Data Governance и Data Fabric. Эти технологии и подходы призваны обеспечить контролируемость данных, а также гибкость и универсальность процессов сбора, хранения и использования информации.

Тем не менее, по данным McKinsey, только 20% компаний смогут успешно провести цифровую трансформацию. Схожая статистика сопровождала бум Big Data. Тогда весь мир ринулся в эту сторону, еще не осознавая, что делать с этой информацией, как ею управлять, монетизировать и отслеживать ее качество. Многие Data Lake превратились в болота, а ML-проекты так и не смогли взлететь из-за проблем с качеством и доступностью данных.

Все эти проблемы актуальны и для проектов, связанных с Data Governance и Data Fabric.

При их реализации нужно учитывать следующие риски:

  • Усложнение имеющихся систем и неприменимость старых технологий и подходов. Новые требования бизнеса и рост объема данных повышают риски возникновения критических ошибок.
  • Отсутствие опыта и регламентов, необходимых для внедрения новых технологий. Компании идут путем проб и ошибок и зачастую изобретают велосипед. Как результат — риски растут, а сроки реализации проектов затягиваются.
  • Нехватка специалистов с релевантным опытом.
  • Сжатые сроки. Бизнес не может выделить несколько лет на подбор подходящих решений, MVP, тестирование и т. д. При этом делать упор на скорость в ущерб надежности системы нельзя.

Как быть?

За сокращение рисков и успех внедрения инноваций отвечает процесс, о котором говорил еще Гегель — переход количества в качество. Он состоит из трех этапов.

Первый — накопление опыта и компетенций в ИТ-сообществе — реализуется через демократизацию знаний и технологий. Именно с этой целью Сбер и «Газпром нефть» организуют масштабные форумы и заключают соглашения об инновационном сотрудничестве, Google и Microsoft открывают исходный код и дают доступ к своим разработкам, а рядовые специалисты делятся новым опытом на Хабре.

Но разрыв между теорией и практикой остается. Одно дело — обрывистый и не дотягивающий до Enterprise-стандартов опыт энтузиастов, и совсем другое — ваша компания, корпоративная ИТ-инфраструктура и конкретные требования бизнеса.

Эта проблема решается на втором этапе — с помощью консалтинга. Консалтинговые компании систематизируют мировой опыт и помогают выработать bestpractice.

Благодаря их поддержке можно оценить текущую ситуацию и сформировать эффективную стратегию развития.

Переходим к третьему этапу. После накопления и осмысления опыта, выработки критериев и подходов начинается практическая реализация. Здесь впереди планеты всей идут интеграторы, за плечами у которых есть масса реальных кейсов и самых разных технологий.

Через многообразие инноваций и опыт мирового комьюнити, через систематизацию, которую дает консалтинг, и, конечно, через «боевой» опыт интеграторов мы, в конечном счете, придем к успешной реализации инновационных проектов.

А что на практике?

Внедрение Data Governance или Data Fabric начинается с аудита корпоративного хранилища (КХД) и информационно-аналитических систем (ИАС), а также разработки концепции управления данными. Если в проекте участвуют консалтеры, для решения этих задач потребуется примерно 3–4 месяца. На выходе вы получите результаты обследования КХД и ИАС, обзор подходящего ПО, варианты реализации архитектуры, Road Map, ТЗ, а также оценки по бюджету и срокам. На основе этих данных формируется итоговое видение и план реализации проекта. Остальное — дело техники: выбор интегратора и четкая постановка задачи. Непосредственно реализация решения обычно занимает 12–18 месяцев.

Успех проекта напрямую зависит от подготовительной работы. Аудит был проведен качественно? Road Map действительно отражает все этапы проекта? Стратегия компании коррелирует с целями внедрения? Проще говоря, чтобы качественно реализовать проект, нужно вложиться в его подготовку.

* Продукты компании Meta, признанной экстремистской в Российской Федерации.

** Признана экстремистской организацией в Российской Федерации.

Автор статьи: Станислав Шлишевский, руководитель направления продвижения центра управления данными компании «Инфосистемы Джет»

44
2 комментария

А можно я прокомментирую, если уже начал листать ваш блог? ))
"Внедрение Data Governance или Data Fabric начинается с аудита корпоративного хранилища (КХД) и информационно-аналитических систем (ИАС), а также разработки концепции управления данными" Ребята, управление данными это не постройка КХД, DG это вообще большей частью не ИТ-шная область, которая не может быть внедрена и приживлена внешним интегратором.

1

Вы правы. DG охватывает более широкие области, чем КХД, DWH только входит в этот периметр.
Что касается не ИТ-шной области DG, то в данном случае речь идёт о внедрении инструментов DG data catalog, Business Glossary, Data Quality.