«Диасофт» рассказал о решении для эффективной работы с данными на форуме «Управление данными 2025»
Во время десятого форума «Управление данными», который состоялся 24 сентября в Москве, эксперты отрасли обсудили роль и качество данных в современном мире. По их словам, методики и инструменты управления данными стали чрезвычайно востребованными, поскольку данные теперь являются ключевым активом бизнеса. Центральной темой конференции стали способы извлечения максимальной пользы из данных.
Эксперты компании «Диасофт» по работе с большими данными – Илья Шуйков, руководитель продукта «Фабрика данных», и Игорь Шабанин, лидер разработки по работе с данными, – представили доклад на тему: «Фабрика данных: от хранилища до ИИ-прогнозов».
«От качества данных напрямую зависит эффективность машинного обучения (ML). Некорректные, неполные или несогласованные данные приводят к ошибочным прогнозам и неверным бизнес-решениям. В пример можно привести задачу прогнозирования добычи нефти на основе исторических данных с датчиков буровых вышек».
По его словам, эти прогнозы могут быть неточными из-за следующих типичных проблем:
- Неполнота данных: датчики могут передавать данные с пропусками.
- Несогласованность: данные поступают из множества разнородных источников в разных форматах.
- Ненадежность: подрядчики могут присылать устаревшие данные.
Решить эти проблемы позволяет сквозной контроль качества данных, утверждают спикеры.
Решение «Фабрика данных» для контроля качества данных
«Фабрика данных» (Digital Q.DataFactory) от «Диасофт» – комплексное решение, которое включает встроенные процессы контроля качества на каждом этапе.
«Чтобы сделать данные полезными, начать необходимо с описания источников данных. Второй шаг – загрузка данных. На этом этапе «Фабрика данных» автоматически проверяет форматы и заполняет отсутствующие значения на основе правил и алгоритмов»,
Во время дальнейших этапов функционал «Фабрики данных» дает следующие возможности:
- Стандартизация: каждый источник данных описывается метаданными (источник, метод измерения, частота обновления, допустимые значения), что обеспечивает согласованность.
- Дальнейший мониторинг: контроль расхождений между прогнозными и фактическими показателями, отслеживание и устранение дубликатов.
Важным элементом является инцидент-менеджмент. Каждая ошибка в данных фиксируется, а для ее решения автоматически запускается бизнес-процесс с назначением ответственных. Это гарантирует, что проблемы не останутся незамеченными и будут системно устранены.
«Фабрика данных» построена на современной data lakehouse-архитектуре, которая объединяет лучшее от хранилищ данных (DataWarehouse) и озер данных (DataLake), объяснили спикеры. Это позволяет работать со структурированными и неструктурированными данными, снижая совокупную стоимость владения на 40-60%.
Ключевые компоненты платформы:
- Загрузка и преобразование: Digital Q.DataFlows на базе Apache NiFi, Spark* для вычислений.
- Хранение: поддержка S3-совместимых хранилищ (Minio/Ceph) и современных форматов (Iceberg, Parquet).
- Доступ к данным: унифицированные SQL-запросы через DigitalQ.Trino и Impala*.
- Управление и безопасность: каталог метаданных Open MetaData*, система безопасности Digital Q.Security, оркестрация на Kubernetes.
- Визуализация: инструменты DigitalQ.Sensor BI и Digital Q.ReportCenter для построения дашбордов и отчетов.
- ML и MLOps: полный цикл машинного обучения поддерживается через MLflow, Kubeflow и интеграцию с LLM.
*Open Source решение, доработанное «Диасофт».
Low-Code и искусственный интеллект: ускорение разработки
Одно из ключевых преимуществ «Фабрики данных» – low-code подход к созданию процессов обработки данных. Встроенный фреймворк на основе метаданных автоматически генерирует код для загрузки и трансформации данных, учитывая все особенности, что значительно ускоряет разработку и снижает порог входа для инженеров.
«Инновацией стала среда разработки с ИИ-ассистентом. Она позволяет генерировать код на PySpark, SQL-запросы и даже ML-модели по описанию задачи на естественном языке. Это ускоряет поиск решений, обучение и подготовку документации»,
При этом он предупредил, что нейросеть – не «волшебная таблетка», а инструмент, который усиливает эксперта, но не заменяет глубокого понимания предметной области.
«Плюсы» для бизнеса
Внедрение «Фабрики данных» предоставляет компаниям ряд стратегических преимуществ:
- Универсальность: решение подходит для широкого спектра задач: от оперативной отчетности и риск-менеджмента до глубокой аналитики и машинного обучения.
- Единая ответственность: «Диасофт» отвечает за весь стек — от прикладных сервисов до инфраструктуры, что упрощает сопровождение и развитие.
- Снижение стоимости разработки: автоматизация рутинных операций и low-code инструменты позволяют быстрее разрабатывать решения и требовать меньшей квалификации для выполнения стандартных задач.
«Фабрика данных» от «Диасофт» превращает сырые, разрозненные данные в надежный фундамент для аналитики и искусственного интеллекта. Решение закрывает все этапы жизненного цикла данных: от работы с метаданными и контроля качества до визуализации и построения предиктивных моделей, позволяя бизнесу извлечь из своих данных реальную пользу.