{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Говорят в России нечем замещать уходящие иностранные решения. А мы сделали это и получили 20 млн. от государства

История о двух айтишниках и Data решениях

Данные — это новая нефть (или сырье?)

Клайв Хамби

Всем привет. Меня зовут Константин, и я основатель компании satori. Это моя первая статья на vc. ru и сразу лонгрид) . Здесь часто можно прочитать, что в России некому и нечем заменить решения иностранных компаний, которые уходят из страны. Расскажу противоположную историю. Надеюсь, что она поможет кому-то узнать немного больше о Data Management решениях.

Я с моим давним другом и партнером Азатом Якуповым встретились на конференции в Иннополисе в 2018 году и обсуждали изменения, которые видим на рынке управления данных в России. После чего реализовали несколько проектов по этой теме и поняли, что многие компании РФ (средние и крупные) нуждаются в комплексных системах управления данными и повышения доверия к большим данным как таковым. Таких решений в мире не так много, а после начала СВО присутствие таких решений в России так и вовсе можно пересчитать по пальцам одной руки.

Было решено делать “космолет” по повышению доверия к большим данным и комплексному их управлению.

Но для этого нужна большая компетентная команда, а такая команда стоит больших денег. Вот мы и обратили свой взор в сторону государственной поддержки ИТ-компаний. Их сейчас поддерживают) Найти крутых специалистов сложно, но получить грант со стороны государства ничуть не легче. Два месяца кропотливой работы по оформлению всех бумаг на подачу, 3-4 месяца ожидания, выездная проверка и мы получили грант в 20 млн. рублей. Вуаля:)

А теперь давайте расскажу, на что мы получили деньги от государства.

В последнее время произошел взрывной рост объема информации в мире. Организации во всех отраслях накопили огромный пласт источников данных, из которых можно получить ценную информацию. Возникает потребность в систематизации и практическом применении данных.

Однако корпорации могут столкнуться с частью проблем, в частности:

  • Разрозненность данных. Наличие большого количества разнородных источников данных (MS SQL Server, XLS-файлы, 1C, Битрикс и др.) и форматов данных;
  • Невозможность оперативного доступа к нужным данным. Для получения информации о состоянии дел в организации необходима нетривиальная работа по сбору и упаковке данных.

Проанализировав рынок программных решений, выявили наиболее известный продукт, покрывающий описанные проблемы.

Informatica — американская компания (что с недавнего времени стало болезненным), которая обладает комплексом различных инструментов со своими функциями:

  1. Интеграция данных:

    - обеспечение доступа к различным базам данных,

    - извлечение данных из файлов,

    - чтение и запись сложных иерархических документов,

    - обработка данных в режиме реального времени

    - мониторинг и предупреждение для всех процессов;

  2. Каталог данных:

    - обнаружение и каталогизация данных,

    - автоматизация обработки данных,

    - отслеживание движения данных,

    - быстрое обнаружение связанных таблиц, представлений, доменов и отчетов;

  3. Качество данных:

    - управление качеством мультиоблачных и локальных данных,

    - профилирование и итеративный анализ данных,

    - создание и тестирование логических бизнес-правил,

    - непрерывный мониторинг данных.

Подробнее о продуктах Informatica можно почитать на их официальном сайте.

И тут встает вопрос: а почему бы не сделать что-то похожее или лучше на Российском рынке?

А зачем это на практике?

Мы сможем посчитать в 1 клик сколько нужно денег Татарстану, чтобы отремонтировать все дома, где капитальный ремонт проводился более 10 лет назад. Сейчас это происходит совсем иначе и совсем в другие сроки.

Теперь давайте перейду к сути.

Команда satori в сотрудничестве с научной Лабораторией Данных при Казанском Федеральном Университете ведет разработку продукта Deductive Lake House в рамках программы “Развитие” Фонда содействия инновациям.

Deductive Lake House – комплексное решение, автоматизирующее полный цикл работы с данными: сбор и обработка, хранение, использование в рамках концепции KaaS — knowledge as a service

Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы на внедрение алгоритмов машинного обучения и AI, которые приведут к современному управлению большими данными и достижению бизнес-ценности (ROI) .

Что это за модули:

  1. UI-интерфейс динамического управления конвейером данных.

    - Пользователи смогут строить data lineage, используя различные инструменты, в частности интеллектуальный mapping данных из различный источников, тем самым управлять потоками информации динамически из одного “окна”.

    - Изменение любого из объектов — характеризует динамическое перестроение всех взаимосвязей и потоков информации в организации.

    - В дальнейшем планируется встроить интеллектуальный поиск информации.

2. Каталог данных — единый источник корпоративных данных.

- Представляет собой инструмент для сбора и обработки метаданных из различных источников.

- Будет иметь общую конфигурацию для функционирования потоков данных, а также конфигурацию для стандартизации/нормализации/обогащения/гармонизации данных.

- Будет реализован функционал получения данных и доступа к ним, проверки качества данных, а также мониторинг работы служб обработки данных (регистрация / проверка / нотификация) .

3. Оптимизатор моделей данных:

- С помощью UI пользователи смогут автоматически создавать, выбирать модели и менять структуры на основании исследования модели интегрируемого источника: DataVault, Snow flake, Hybrid model, Anchor model.

- Также будет реализован функционал автоматического создания и регистрации потока данных из указанного источника.

- В оптимизатор модели будет встроена автоматическая реакция (+ информирование) на изменение структуры / модели текущего источника данных.

4. Анализатор зависимости данных:

- Построение динамического пути данных от начального пользователя до конечного потребителя информации.

- Автоматическая адаптация системы под построение общих паттернов модели для оптимизации работы построения кубов информации.

- Автоматическое определения последовательности восстановления кубов информации в случае аварийной ситуации

5. Предикатор данных и генератор гипотез:

- Динамическая адаптация модели для создания и оптимизации структуры данных.

- Построение модели из неструктурированных данных путем определения таксономий и онтологий.

- Сбор статистики и гистограмм данных для оптимизаций скорости сбора информации путем динамического переопределения механизмов обработки данных.

- Создание Data Mining Crawlers для автоматического поиска сильно/слабо взаимосвязанных данных для предоставления этой информации Аналитикам Данных

По смыслу дедуктивная база знаний это триумвират, который показан на рисунке. Каждый модуль может в отдельности повысить доверие к данным. Комплексное внедрение продукта поднимет процессы Data Governance в компании на качественно новый уровень, мы в satori в это верим.

Важно отметить, что в разработке мы используем только open-source решения для уменьшения стоимости поддержки данного продукта. Если статья наберет должный отклик мы сможем рассказать подробнее про используемые технологии и их применимость в проекте, а также детальнее раскрыть конкретные модули.

Для реализации MVP собираем кейсы разных компаний для того, чтобы сделать максимально юзабельный и полезный продукт, который подходит под наш рынок.

Буду рад ответить на вопросы в комментариях или в WhatsApp

0
150 комментариев
Написать комментарий...
Ignat

Двацатку до повестки или после получили?

Ответить
Развернуть ветку
John Doe
Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы на

По моему я первый внедрял информатику в РФ почти 20 лет назад и даже был их первым дистрибом в РФ. Содержание статьи — или чистая маниловщина или нарисованные красивые картинки, чтобы дали 20 лямов. Тупо посчитать трудозатраты на все, что перечислил автор, — это тысячи человеколет и отнюдь не джунов. Не цветочные магазинчики клепать под копирку. И это если не брать того, что если в команде нет людей с опытом оптимизации трансформаций на объемах 50-80-100Гб структурированных данных за 4-6 часов, то это тупо песочница для мелочевки. А вполне нормальные мелочевые ETL'и есть опен-сорсные и абсолютно бесплатные. Бери не хочу. Форкнуть стоит копейки, а не 20 лямов.

PS Не то, чтобы меня хоть сколько-нибудь волновала судьба Информатики в РФ, но нап%%дели с три короба.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Было бы круто, если бы мы смогли применить ваш опыт у нас. Напишите пожалуйста мне в личку, если вам интересно вместе поработать

Ответить
Развернуть ветку
John Doe

На мне свет клином не сошелся. Людей, которые могут на таких объемах что-то такое изобразить на всем СНГ можно по пальцам пересчитать (если они еще остались, в РФ объемы большие — за границей их с руками оторвут). Берете большие инсталляции уровня Сбера или мобильных операторов (лучше всего Билайн, МТС хуже, но еще сойдет, у Меги все довольно печально) и просто пытаетесь сманить топовых техарков у них самих или у 2.5 интеграторов, которые там сидят. Но:

— Если техарки даже к Вам пойдут, то Ваши 20 лямов рублей кончатся очень-очень быстро.

— Это серьезные проекты с общими инвестициям за сотку миллионов долларов за все время их существования, а где-то и еще больше. Можно и по жопе отхватить от серьезных пацанов за сманивание ключевых спецов.

А так в Сбере сейчас объемы самые большие, но там Терадата со своей спецификой knowledge sharing, и архитектура в стиле "я его слепила из того, что было".

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Спасибо за рекомендации. Мы сейчас как раз направлены набивать кейсы, чтобы получать разный кастомный опыт. Благо научный руководитель проекта / CDO Компании один из лучших Data Architect в Татарстане, поэтому вероятность необкакаться при наличии финансирования у нас не такая низкая

Ответить
Развернуть ветку
John Doe

1. Если Вы про Информатику, то это ETL-платформа. Вокруг нее настроено много всего, но это прежде всего ETL.
2. Ничуть не умаляя достоинств Вашего CDO, но для ETL CDO — теоретик из космоса. Он (если хороший) в бизнес должен быть погружен по самое не могу. А вам нужен хай-перформанс, легкая параллелизация по нодам, автоматический лоад-бэленсинг, оптимизация под разные БД и т.п. Это не сделаешь рисуя картинки и изучая ЦБшный план счетов. Но с другой стороны супер-оптимизированная быстрая загрузка никак не гарантирует то, что загружать будут то, что нужно бизнесу :) Это как раз CDO должен обеспечить.

Ответить
Развернуть ветку
Дмитрий Перепёлкин

хай-перформансов и так чуть больше чем дофига, как пример Vertica или отечественный Clickhouse

вот только их развёртку и поддержание в автоматическом режиме я себе слабо представляю

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Вы правы, есть кейсы, где мы даже не претендуем на полную автоматизацию, и рассчитываем на поддержку в полуавтоматическом решении, например, при слиянии моделей источников

Ответить
Развернуть ветку
John Doe

Это OLAP DB, не ETL.

Ответить
Развернуть ветку
147 комментариев
Раскрывать всегда