Говорят в России нечем замещать уходящие иностранные решения. А мы сделали это и получили 20 млн. от государства

История о двух айтишниках и Data решениях

Данные — это новая нефть (или сырье?)

Клайв Хамби

Всем привет. Меня зовут Константин, и я основатель компании satori. Это моя первая статья на vc. ru и сразу лонгрид) . Здесь часто можно прочитать, что в России некому и нечем заменить решения иностранных компаний, которые уходят из страны. Расскажу противоположную историю. Надеюсь, что она поможет кому-то узнать немного больше о Data Management решениях.

Я с моим давним другом и партнером Азатом Якуповым встретились на конференции в Иннополисе в 2018 году и обсуждали изменения, которые видим на рынке управления данных в России. После чего реализовали несколько проектов по этой теме и поняли, что многие компании РФ (средние и крупные) нуждаются в комплексных системах управления данными и повышения доверия к большим данным как таковым. Таких решений в мире не так много, а после начала СВО присутствие таких решений в России так и вовсе можно пересчитать по пальцам одной руки.

Было решено делать “космолет” по повышению доверия к большим данным и комплексному их управлению.

Но для этого нужна большая компетентная команда, а такая команда стоит больших денег. Вот мы и обратили свой взор в сторону государственной поддержки ИТ-компаний. Их сейчас поддерживают) Найти крутых специалистов сложно, но получить грант со стороны государства ничуть не легче. Два месяца кропотливой работы по оформлению всех бумаг на подачу, 3-4 месяца ожидания, выездная проверка и мы получили грант в 20 млн. рублей. Вуаля:)

А теперь давайте расскажу, на что мы получили деньги от государства.

В последнее время произошел взрывной рост объема информации в мире. Организации во всех отраслях накопили огромный пласт источников данных, из которых можно получить ценную информацию. Возникает потребность в систематизации и практическом применении данных.

Однако корпорации могут столкнуться с частью проблем, в частности:

  • Разрозненность данных. Наличие большого количества разнородных источников данных (MS SQL Server, XLS-файлы, 1C, Битрикс и др.) и форматов данных;
  • Невозможность оперативного доступа к нужным данным. Для получения информации о состоянии дел в организации необходима нетривиальная работа по сбору и упаковке данных.

Проанализировав рынок программных решений, выявили наиболее известный продукт, покрывающий описанные проблемы.

Informatica — американская компания (что с недавнего времени стало болезненным), которая обладает комплексом различных инструментов со своими функциями:

  1. Интеграция данных:

    - обеспечение доступа к различным базам данных,

    - извлечение данных из файлов,

    - чтение и запись сложных иерархических документов,

    - обработка данных в режиме реального времени

    - мониторинг и предупреждение для всех процессов;

  2. Каталог данных:

    - обнаружение и каталогизация данных,

    - автоматизация обработки данных,

    - отслеживание движения данных,

    - быстрое обнаружение связанных таблиц, представлений, доменов и отчетов;

  3. Качество данных:

    - управление качеством мультиоблачных и локальных данных,

    - профилирование и итеративный анализ данных,

    - создание и тестирование логических бизнес-правил,

    - непрерывный мониторинг данных.

Подробнее о продуктах Informatica можно почитать на их официальном сайте.

И тут встает вопрос: а почему бы не сделать что-то похожее или лучше на Российском рынке?

А зачем это на практике?

Мы сможем посчитать в 1 клик сколько нужно денег Татарстану, чтобы отремонтировать все дома, где капитальный ремонт проводился более 10 лет назад. Сейчас это происходит совсем иначе и совсем в другие сроки.

Теперь давайте перейду к сути.

Команда satori в сотрудничестве с научной Лабораторией Данных при Казанском Федеральном Университете ведет разработку продукта Deductive Lake House в рамках программы “Развитие” Фонда содействия инновациям.

Deductive Lake House – комплексное решение, автоматизирующее полный цикл работы с данными: сбор и обработка, хранение, использование в рамках концепции KaaS — knowledge as a service

Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы на внедрение алгоритмов машинного обучения и AI, которые приведут к современному управлению большими данными и достижению бизнес-ценности (ROI) .

Что это за модули:

  1. UI-интерфейс динамического управления конвейером данных.

    - Пользователи смогут строить data lineage, используя различные инструменты, в частности интеллектуальный mapping данных из различный источников, тем самым управлять потоками информации динамически из одного “окна”.

    - Изменение любого из объектов — характеризует динамическое перестроение всех взаимосвязей и потоков информации в организации.

    - В дальнейшем планируется встроить интеллектуальный поиск информации.

2. Каталог данных — единый источник корпоративных данных.

- Представляет собой инструмент для сбора и обработки метаданных из различных источников.

- Будет иметь общую конфигурацию для функционирования потоков данных, а также конфигурацию для стандартизации/нормализации/обогащения/гармонизации данных.

- Будет реализован функционал получения данных и доступа к ним, проверки качества данных, а также мониторинг работы служб обработки данных (регистрация / проверка / нотификация) .

3. Оптимизатор моделей данных:

- С помощью UI пользователи смогут автоматически создавать, выбирать модели и менять структуры на основании исследования модели интегрируемого источника: DataVault, Snow flake, Hybrid model, Anchor model.

- Также будет реализован функционал автоматического создания и регистрации потока данных из указанного источника.

- В оптимизатор модели будет встроена автоматическая реакция (+ информирование) на изменение структуры / модели текущего источника данных.

4. Анализатор зависимости данных:

- Построение динамического пути данных от начального пользователя до конечного потребителя информации.

- Автоматическая адаптация системы под построение общих паттернов модели для оптимизации работы построения кубов информации.

- Автоматическое определения последовательности восстановления кубов информации в случае аварийной ситуации

5. Предикатор данных и генератор гипотез:

- Динамическая адаптация модели для создания и оптимизации структуры данных.

- Построение модели из неструктурированных данных путем определения таксономий и онтологий.

- Сбор статистики и гистограмм данных для оптимизаций скорости сбора информации путем динамического переопределения механизмов обработки данных.

- Создание Data Mining Crawlers для автоматического поиска сильно/слабо взаимосвязанных данных для предоставления этой информации Аналитикам Данных

По смыслу дедуктивная база знаний это триумвират, который показан на рисунке. Каждый модуль может в отдельности повысить доверие к данным. Комплексное внедрение продукта поднимет процессы Data Governance в компании на качественно новый уровень, мы в satori в это верим.

Важно отметить, что в разработке мы используем только open-source решения для уменьшения стоимости поддержки данного продукта. Если статья наберет должный отклик мы сможем рассказать подробнее про используемые технологии и их применимость в проекте, а также детальнее раскрыть конкретные модули.

Для реализации MVP собираем кейсы разных компаний для того, чтобы сделать максимально юзабельный и полезный продукт, который подходит под наш рынок.

Буду рад ответить на вопросы в комментариях или в WhatsApp

0
150 комментариев
Написать комментарий...
Неопознанный Енот

Встретимся через n лет после проверок. Не так сложно взять денег у государства, куда сложнее не присесть после на проблемы.
(Много видел, много слышал, в одной из контор, в которой работал, гендир еще два года после закрытия компании ночами после основной работы пилил отчеты для проверяющих органов)

Ответить
Развернуть ветку
AeternaMens

Зачем так долго ждать? Сейчас в военкомат позовут, на этом история и закончится.

Ответить
Развернуть ветку
x32202

Да неужели государство будет себе в убыток на середине контракта исполнителей отправлять куда-то? Очень сомнительно

Ответить
Развернуть ветку
AeternaMens

А государство это кто? Вот прям вижу - сидит такое государство на кресле и рассуждает "так, этого рано на фронт, он ещё проект не допилил".

Ответить
Развернуть ветку
x32202

Наверное вам очень смешно, но экономика для военной машины тоже должна продолжать работать, иначе денег на нее не будет, они из воздуха не рождаются. Представьте себе, что гранты организациям как-то перечисляют, реестры ведутся, есть процедуры бронирования сотрудников на госконтрактах.

Ответить
Развернуть ветку
AeternaMens

Так а на вопрос ответить слабо?

Ответить
Развернуть ветку
x32202

Вы что не знаете из каких ведомств состоит государство? Прикидываться не надо

Ответить
Развернуть ветку
AeternaMens

Ну так вот, одному ведомству глубоко насрать на проблемы другого.

Ответить
Развернуть ветку
x32202

А как же вся эта система работает и до сих пор не развалилась тогда?

Ответить
Развернуть ветку
AeternaMens

Херово.

Ответить
Развернуть ветку
147 комментариев
Раскрывать всегда