Откуда пришла идея централизации и можно ли создать единый источник актуальных данных

Откуда пришла идея централизации и можно ли создать единый источник актуальных данных

С проблемой «зоопарка решений» сегодня сталкивается почти каждая крупная компания: CRM, 1C, сервисы ведения проектов, кадровые и HR-сервисы, аналитика, инструменты техподдержки – все это наборы данных, которыми пользуются разные подразделения, часто не подозревая, какие данные актуальны, а какие устарели.

Для решения этой проблемы на рынке появились не только прикладные решения, но и их теоретические обоснования: концепция единого источника истины и концепция единой версии.

Проблемы децентрализованных данных

Множество источников и разрозненных данных приводили сразу к нескольким существенным проблемам: несогласованности, небезопасности и снижению доверия. В результате накопленные данные становились источником угроз и были непригодны для принятия решений.

При этом безопасность систем, как показала практика, стала более важным поводом к изменениям. По данным IBM, средняя мировая стоимость утечки данных в 2023 году составила 4,45 миллиона долларов США, что на 15% больше, чем за 3 года.

Одной из самых громких утечек 2017 года, которая повлекла серьезный репутационный ущерб, стала утечка персональных данных американского бюро кредитной истории Equifax. В ходе взлома злоумышленники получили доступ к данным 145,5 млн человек, жителей США, Канады и Великобритании. Были украдены полные имена, номера социального страхования, даты рождения, адреса и, в некоторых случаях, номера водительских прав. Также была украдена информация о 209 тысячах кредитных карт. По результатам судебного решения Equifax выплатит 575 миллионов долларов для урегулирования ситуации.

Концепция единого источника истины (SSOT)

Оформить решение проблем с данными в теоретическую концепцию, а затем предложить свое решение 一 было гениальным стратегическим ходом. И все указывает на то, что этот ход сделала компания IBM. Сразу в нескольких авторитетных изданиях в середине 2000-ых появляется концепция единого источника истины (Single source of truth 一 SSOT), которая предполагает создание центрального хранилища данных. Суть такого решения в создании единственного источника информации для всех пользователей, который легко обновлять и дополнять.

Разрабатывая эту концепцию, в 2008 году выходит продукт IBM InfoSphere Information Server, представляющий собой инструмент для интеграции и управления данными. Развитие этого направления в последние 10 лет позволило IBM заключить крупные контракты на комплексные программы модернизации ИТ-инфраструктуры, например, с Coca-Cola European Partners 一 бутилирующей компанией Coca-Cola. Соглашение между компаниями 2020 года предусматривает снижение операционных расходов и улучшение аналитических возможностей Coca-Cola на базе продуктов IBM.

Еще одним примером приверженности этой концепции является монолитный репозиторий программного обеспечения Google, который используют 95% разработчиков программного обеспечения по всему миру. Несмотря на то ,что репозиторий соответствует определению сверхкрупномасштабной системы, ее существование доказывает возможность успешного масштабирования модели репозитория с одним исходным кодом.

Кодовая база Google включает около одного миллиарда файлов и имеет историю примерно 35 миллионов коммитов, охватывающих все 18 лет существования Google. Репозиторий содержит 86 Тб данных, включая около двух миллиардов строк кода в девяти миллионах уникальных исходных файлов. Общее количество файлов также включает исходные файлы, скопированные в ветки выпуска, файлы, удаленные в последней версии, файлы конфигурации, документацию и файлы вспомогательных данных.

Миллионы изменений, зафиксированных в центральном репозитории Google с течением времени
Миллионы изменений, зафиксированных в центральном репозитории Google с течением времени

Альтернативная концепция

Со временем на рынке появились другие решения, которые позволяли решить проблему с несогласованностью данных из разных источников. Теоретическая база тоже обновилась. На место концепции единого источника истины (SSOT) пришла концепция единой версии истины (Single Version of the Truth 一 SVOT). Ее отличие в том, что вместо создания централизованного хранилища данных достаточно наладить интеграцию и синхронизацию всех систем, чтобы данные были бы согласованы между собой.

Концепция реализуется через федеративную архитектуру, где данные остаются в системах их происхождения, но управляются централизованным образом. Для обеспечения согласованности используются API и микросервисы, а для передачи данных в реальном времени – технологии обмена сообщениями Message Brokers и Data Streams, например, Kafka или RabbitMQ.

Один из ярких примеров следованию данному подходу 一 кейс Johnson & Johnson. Компания столкнулась с дублированием данных и сложностями в обеспечении их актуальности. Для реализации была выбрана федеративная модель данных, при которой данные хранятся в распределенных и автономных источниках, но могут быть объединены и представлены как одно целое. Благодаря улучшению процессов и снижению операционных расходов Johnson & Johnson удалось сэкономить почти полмиллиарда долларов за три года.

Сегодня концепции управления данными продолжают развиваться, в том числе благодаря технологиям машинного обучения и искусственного интеллекта. Возможности аналитики и получения инсайтов для оптимизации деятельности, выхода на новые рынки стали для компаний еще одним поводом инвестировать в управление качеством данных.

R-Style Softlab уже 30 лет разрабатывает решения для банковской отрасли, в том числе для создания централизованного хранилища данных, управления рисками и стратегического планирования. Узнайте больше о продуктах компании на нашем сайте.

1
Начать дискуссию