Говорят в России нечем замещать уходящие иностранные решения. А мы сделали это и получили 20 млн. от государства

История о двух айтишниках и Data решениях

Данные — это новая нефть (или сырье?)

Клайв Хамби

Всем привет. Меня зовут Константин, и я основатель компании satori. Это моя первая статья на vc. ru и сразу лонгрид) . Здесь часто можно прочитать, что в России некому и нечем заменить решения иностранных компаний, которые уходят из страны. Расскажу противоположную историю. Надеюсь, что она поможет кому-то узнать немного больше о Data Management решениях.

Я с моим давним другом и партнером Азатом Якуповым встретились на конференции в Иннополисе в 2018 году и обсуждали изменения, которые видим на рынке управления данных в России. После чего реализовали несколько проектов по этой теме и поняли, что многие компании РФ (средние и крупные) нуждаются в комплексных системах управления данными и повышения доверия к большим данным как таковым. Таких решений в мире не так много, а после начала СВО присутствие таких решений в России так и вовсе можно пересчитать по пальцам одной руки.

Было решено делать “космолет” по повышению доверия к большим данным и комплексному их управлению.

Но для этого нужна большая компетентная команда, а такая команда стоит больших денег. Вот мы и обратили свой взор в сторону государственной поддержки ИТ-компаний. Их сейчас поддерживают) Найти крутых специалистов сложно, но получить грант со стороны государства ничуть не легче. Два месяца кропотливой работы по оформлению всех бумаг на подачу, 3-4 месяца ожидания, выездная проверка и мы получили грант в 20 млн. рублей. Вуаля:)

А теперь давайте расскажу, на что мы получили деньги от государства.

В последнее время произошел взрывной рост объема информации в мире. Организации во всех отраслях накопили огромный пласт источников данных, из которых можно получить ценную информацию. Возникает потребность в систематизации и практическом применении данных.

Однако корпорации могут столкнуться с частью проблем, в частности:

  • Разрозненность данных. Наличие большого количества разнородных источников данных (MS SQL Server, XLS-файлы, 1C, Битрикс и др.) и форматов данных;
  • Невозможность оперативного доступа к нужным данным. Для получения информации о состоянии дел в организации необходима нетривиальная работа по сбору и упаковке данных.

Проанализировав рынок программных решений, выявили наиболее известный продукт, покрывающий описанные проблемы.

Informatica — американская компания (что с недавнего времени стало болезненным), которая обладает комплексом различных инструментов со своими функциями:

  1. Интеграция данных:

    - обеспечение доступа к различным базам данных,

    - извлечение данных из файлов,

    - чтение и запись сложных иерархических документов,

    - обработка данных в режиме реального времени

    - мониторинг и предупреждение для всех процессов;

  2. Каталог данных:

    - обнаружение и каталогизация данных,

    - автоматизация обработки данных,

    - отслеживание движения данных,

    - быстрое обнаружение связанных таблиц, представлений, доменов и отчетов;

  3. Качество данных:

    - управление качеством мультиоблачных и локальных данных,

    - профилирование и итеративный анализ данных,

    - создание и тестирование логических бизнес-правил,

    - непрерывный мониторинг данных.

Подробнее о продуктах Informatica можно почитать на их официальном сайте.

И тут встает вопрос: а почему бы не сделать что-то похожее или лучше на Российском рынке?

А зачем это на практике?

Мы сможем посчитать в 1 клик сколько нужно денег Татарстану, чтобы отремонтировать все дома, где капитальный ремонт проводился более 10 лет назад. Сейчас это происходит совсем иначе и совсем в другие сроки.

Теперь давайте перейду к сути.

Команда satori в сотрудничестве с научной Лабораторией Данных при Казанском Федеральном Университете ведет разработку продукта Deductive Lake House в рамках программы “Развитие” Фонда содействия инновациям.

Deductive Lake House – комплексное решение, автоматизирующее полный цикл работы с данными: сбор и обработка, хранение, использование в рамках концепции KaaS — knowledge as a service

Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы на внедрение алгоритмов машинного обучения и AI, которые приведут к современному управлению большими данными и достижению бизнес-ценности (ROI) .

Что это за модули:

  1. UI-интерфейс динамического управления конвейером данных.

    - Пользователи смогут строить data lineage, используя различные инструменты, в частности интеллектуальный mapping данных из различный источников, тем самым управлять потоками информации динамически из одного “окна”.

    - Изменение любого из объектов — характеризует динамическое перестроение всех взаимосвязей и потоков информации в организации.

    - В дальнейшем планируется встроить интеллектуальный поиск информации.

2. Каталог данных — единый источник корпоративных данных.

- Представляет собой инструмент для сбора и обработки метаданных из различных источников.

- Будет иметь общую конфигурацию для функционирования потоков данных, а также конфигурацию для стандартизации/нормализации/обогащения/гармонизации данных.

- Будет реализован функционал получения данных и доступа к ним, проверки качества данных, а также мониторинг работы служб обработки данных (регистрация / проверка / нотификация) .

3. Оптимизатор моделей данных:

- С помощью UI пользователи смогут автоматически создавать, выбирать модели и менять структуры на основании исследования модели интегрируемого источника: DataVault, Snow flake, Hybrid model, Anchor model.

- Также будет реализован функционал автоматического создания и регистрации потока данных из указанного источника.

- В оптимизатор модели будет встроена автоматическая реакция (+ информирование) на изменение структуры / модели текущего источника данных.

4. Анализатор зависимости данных:

- Построение динамического пути данных от начального пользователя до конечного потребителя информации.

- Автоматическая адаптация системы под построение общих паттернов модели для оптимизации работы построения кубов информации.

- Автоматическое определения последовательности восстановления кубов информации в случае аварийной ситуации

5. Предикатор данных и генератор гипотез:

- Динамическая адаптация модели для создания и оптимизации структуры данных.

- Построение модели из неструктурированных данных путем определения таксономий и онтологий.

- Сбор статистики и гистограмм данных для оптимизаций скорости сбора информации путем динамического переопределения механизмов обработки данных.

- Создание Data Mining Crawlers для автоматического поиска сильно/слабо взаимосвязанных данных для предоставления этой информации Аналитикам Данных

По смыслу дедуктивная база знаний это триумвират, который показан на рисунке. Каждый модуль может в отдельности повысить доверие к данным. Комплексное внедрение продукта поднимет процессы Data Governance в компании на качественно новый уровень, мы в satori в это верим.

Важно отметить, что в разработке мы используем только open-source решения для уменьшения стоимости поддержки данного продукта. Если статья наберет должный отклик мы сможем рассказать подробнее про используемые технологии и их применимость в проекте, а также детальнее раскрыть конкретные модули.

Для реализации MVP собираем кейсы разных компаний для того, чтобы сделать максимально юзабельный и полезный продукт, который подходит под наш рынок.

Буду рад ответить на вопросы в комментариях или в WhatsApp

0
150 комментариев
Написать комментарий...
Alexey

Так Вы заместитили что-то или только собираетесь, предварительно получив финансирование?

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Мы в процессе реализации первых двух модулей, 1 ноября будет готов прототип

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Alexey

Удачи вам! Пусть все получится, большое дело делаете!

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Спасибо!

Ответить
Развернуть ветку
147 комментариев
Раскрывать всегда