Говорят в России нечем замещать уходящие иностранные решения. А мы сделали это и получили 20 млн. от государства

История о двух айтишниках и Data решениях

Данные — это новая нефть (или сырье?)

Клайв Хамби

Всем привет. Меня зовут Константин, и я основатель компании satori. Это моя первая статья на vc. ru и сразу лонгрид) . Здесь часто можно прочитать, что в России некому и нечем заменить решения иностранных компаний, которые уходят из страны. Расскажу противоположную историю. Надеюсь, что она поможет кому-то узнать немного больше о Data Management решениях.

Я с моим давним другом и партнером Азатом Якуповым встретились на конференции в Иннополисе в 2018 году и обсуждали изменения, которые видим на рынке управления данных в России. После чего реализовали несколько проектов по этой теме и поняли, что многие компании РФ (средние и крупные) нуждаются в комплексных системах управления данными и повышения доверия к большим данным как таковым. Таких решений в мире не так много, а после начала СВО присутствие таких решений в России так и вовсе можно пересчитать по пальцам одной руки.

Было решено делать “космолет” по повышению доверия к большим данным и комплексному их управлению.

Но для этого нужна большая компетентная команда, а такая команда стоит больших денег. Вот мы и обратили свой взор в сторону государственной поддержки ИТ-компаний. Их сейчас поддерживают) Найти крутых специалистов сложно, но получить грант со стороны государства ничуть не легче. Два месяца кропотливой работы по оформлению всех бумаг на подачу, 3-4 месяца ожидания, выездная проверка и мы получили грант в 20 млн. рублей. Вуаля:)

А теперь давайте расскажу, на что мы получили деньги от государства.

В последнее время произошел взрывной рост объема информации в мире. Организации во всех отраслях накопили огромный пласт источников данных, из которых можно получить ценную информацию. Возникает потребность в систематизации и практическом применении данных.

Однако корпорации могут столкнуться с частью проблем, в частности:

  • Разрозненность данных. Наличие большого количества разнородных источников данных (MS SQL Server, XLS-файлы, 1C, Битрикс и др.) и форматов данных;
  • Невозможность оперативного доступа к нужным данным. Для получения информации о состоянии дел в организации необходима нетривиальная работа по сбору и упаковке данных.

Проанализировав рынок программных решений, выявили наиболее известный продукт, покрывающий описанные проблемы.

Informatica — американская компания (что с недавнего времени стало болезненным), которая обладает комплексом различных инструментов со своими функциями:

  1. Интеграция данных:

    - обеспечение доступа к различным базам данных,

    - извлечение данных из файлов,

    - чтение и запись сложных иерархических документов,

    - обработка данных в режиме реального времени

    - мониторинг и предупреждение для всех процессов;

  2. Каталог данных:

    - обнаружение и каталогизация данных,

    - автоматизация обработки данных,

    - отслеживание движения данных,

    - быстрое обнаружение связанных таблиц, представлений, доменов и отчетов;

  3. Качество данных:

    - управление качеством мультиоблачных и локальных данных,

    - профилирование и итеративный анализ данных,

    - создание и тестирование логических бизнес-правил,

    - непрерывный мониторинг данных.

Подробнее о продуктах Informatica можно почитать на их официальном сайте.

И тут встает вопрос: а почему бы не сделать что-то похожее или лучше на Российском рынке?

А зачем это на практике?

Мы сможем посчитать в 1 клик сколько нужно денег Татарстану, чтобы отремонтировать все дома, где капитальный ремонт проводился более 10 лет назад. Сейчас это происходит совсем иначе и совсем в другие сроки.

Теперь давайте перейду к сути.

Команда satori в сотрудничестве с научной Лабораторией Данных при Казанском Федеральном Университете ведет разработку продукта Deductive Lake House в рамках программы “Развитие” Фонда содействия инновациям.

Deductive Lake House – комплексное решение, автоматизирующее полный цикл работы с данными: сбор и обработка, хранение, использование в рамках концепции KaaS — knowledge as a service

Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы на внедрение алгоритмов машинного обучения и AI, которые приведут к современному управлению большими данными и достижению бизнес-ценности (ROI) .

Что это за модули:

  1. UI-интерфейс динамического управления конвейером данных.

    - Пользователи смогут строить data lineage, используя различные инструменты, в частности интеллектуальный mapping данных из различный источников, тем самым управлять потоками информации динамически из одного “окна”.

    - Изменение любого из объектов — характеризует динамическое перестроение всех взаимосвязей и потоков информации в организации.

    - В дальнейшем планируется встроить интеллектуальный поиск информации.

2. Каталог данных — единый источник корпоративных данных.

- Представляет собой инструмент для сбора и обработки метаданных из различных источников.

- Будет иметь общую конфигурацию для функционирования потоков данных, а также конфигурацию для стандартизации/нормализации/обогащения/гармонизации данных.

- Будет реализован функционал получения данных и доступа к ним, проверки качества данных, а также мониторинг работы служб обработки данных (регистрация / проверка / нотификация) .

3. Оптимизатор моделей данных:

- С помощью UI пользователи смогут автоматически создавать, выбирать модели и менять структуры на основании исследования модели интегрируемого источника: DataVault, Snow flake, Hybrid model, Anchor model.

- Также будет реализован функционал автоматического создания и регистрации потока данных из указанного источника.

- В оптимизатор модели будет встроена автоматическая реакция (+ информирование) на изменение структуры / модели текущего источника данных.

4. Анализатор зависимости данных:

- Построение динамического пути данных от начального пользователя до конечного потребителя информации.

- Автоматическая адаптация системы под построение общих паттернов модели для оптимизации работы построения кубов информации.

- Автоматическое определения последовательности восстановления кубов информации в случае аварийной ситуации

5. Предикатор данных и генератор гипотез:

- Динамическая адаптация модели для создания и оптимизации структуры данных.

- Построение модели из неструктурированных данных путем определения таксономий и онтологий.

- Сбор статистики и гистограмм данных для оптимизаций скорости сбора информации путем динамического переопределения механизмов обработки данных.

- Создание Data Mining Crawlers для автоматического поиска сильно/слабо взаимосвязанных данных для предоставления этой информации Аналитикам Данных

По смыслу дедуктивная база знаний это триумвират, который показан на рисунке. Каждый модуль может в отдельности повысить доверие к данным. Комплексное внедрение продукта поднимет процессы Data Governance в компании на качественно новый уровень, мы в satori в это верим.

Важно отметить, что в разработке мы используем только open-source решения для уменьшения стоимости поддержки данного продукта. Если статья наберет должный отклик мы сможем рассказать подробнее про используемые технологии и их применимость в проекте, а также детальнее раскрыть конкретные модули.

Для реализации MVP собираем кейсы разных компаний для того, чтобы сделать максимально юзабельный и полезный продукт, который подходит под наш рынок.

Буду рад ответить на вопросы в комментариях или в WhatsApp

0
150 комментариев
Написать комментарий...
Sergey Furtaev

А чем/кем замените уходящее, уезжающее и улетающее население?

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Благо у нас в проекте 80% девушек)

Ответить
Развернуть ветку
Руперт Папкин

А как быть с декретом? А хотя какой декрет, когда все в окопах будут.

Ответить
Развернуть ветку
147 комментариев
Раскрывать всегда