Говорят в России нечем замещать уходящие иностранные решения. А мы сделали это и получили 20 млн. от государства

История о двух айтишниках и Data решениях

Данные — это новая нефть (или сырье?)

Клайв Хамби

Всем привет. Меня зовут Константин, и я основатель компании satori. Это моя первая статья на vc. ru и сразу лонгрид) . Здесь часто можно прочитать, что в России некому и нечем заменить решения иностранных компаний, которые уходят из страны. Расскажу противоположную историю. Надеюсь, что она поможет кому-то узнать немного больше о Data Management решениях.

Я с моим давним другом и партнером Азатом Якуповым встретились на конференции в Иннополисе в 2018 году и обсуждали изменения, которые видим на рынке управления данных в России. После чего реализовали несколько проектов по этой теме и поняли, что многие компании РФ (средние и крупные) нуждаются в комплексных системах управления данными и повышения доверия к большим данным как таковым. Таких решений в мире не так много, а после начала СВО присутствие таких решений в России так и вовсе можно пересчитать по пальцам одной руки.

Было решено делать “космолет” по повышению доверия к большим данным и комплексному их управлению.

Но для этого нужна большая компетентная команда, а такая команда стоит больших денег. Вот мы и обратили свой взор в сторону государственной поддержки ИТ-компаний. Их сейчас поддерживают) Найти крутых специалистов сложно, но получить грант со стороны государства ничуть не легче. Два месяца кропотливой работы по оформлению всех бумаг на подачу, 3-4 месяца ожидания, выездная проверка и мы получили грант в 20 млн. рублей. Вуаля:)

А теперь давайте расскажу, на что мы получили деньги от государства.

В последнее время произошел взрывной рост объема информации в мире. Организации во всех отраслях накопили огромный пласт источников данных, из которых можно получить ценную информацию. Возникает потребность в систематизации и практическом применении данных.

Однако корпорации могут столкнуться с частью проблем, в частности:

  • Разрозненность данных. Наличие большого количества разнородных источников данных (MS SQL Server, XLS-файлы, 1C, Битрикс и др.) и форматов данных;
  • Невозможность оперативного доступа к нужным данным. Для получения информации о состоянии дел в организации необходима нетривиальная работа по сбору и упаковке данных.

Проанализировав рынок программных решений, выявили наиболее известный продукт, покрывающий описанные проблемы.

Informatica — американская компания (что с недавнего времени стало болезненным), которая обладает комплексом различных инструментов со своими функциями:

  1. Интеграция данных:

    - обеспечение доступа к различным базам данных,

    - извлечение данных из файлов,

    - чтение и запись сложных иерархических документов,

    - обработка данных в режиме реального времени

    - мониторинг и предупреждение для всех процессов;

  2. Каталог данных:

    - обнаружение и каталогизация данных,

    - автоматизация обработки данных,

    - отслеживание движения данных,

    - быстрое обнаружение связанных таблиц, представлений, доменов и отчетов;

  3. Качество данных:

    - управление качеством мультиоблачных и локальных данных,

    - профилирование и итеративный анализ данных,

    - создание и тестирование логических бизнес-правил,

    - непрерывный мониторинг данных.

Подробнее о продуктах Informatica можно почитать на их официальном сайте.

И тут встает вопрос: а почему бы не сделать что-то похожее или лучше на Российском рынке?

А зачем это на практике?

Мы сможем посчитать в 1 клик сколько нужно денег Татарстану, чтобы отремонтировать все дома, где капитальный ремонт проводился более 10 лет назад. Сейчас это происходит совсем иначе и совсем в другие сроки.

Теперь давайте перейду к сути.

Команда satori в сотрудничестве с научной Лабораторией Данных при Казанском Федеральном Университете ведет разработку продукта Deductive Lake House в рамках программы “Развитие” Фонда содействия инновациям.

Deductive Lake House – комплексное решение, автоматизирующее полный цикл работы с данными: сбор и обработка, хранение, использование в рамках концепции KaaS — knowledge as a service

Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы на внедрение алгоритмов машинного обучения и AI, которые приведут к современному управлению большими данными и достижению бизнес-ценности (ROI) .

Что это за модули:

  1. UI-интерфейс динамического управления конвейером данных.

    - Пользователи смогут строить data lineage, используя различные инструменты, в частности интеллектуальный mapping данных из различный источников, тем самым управлять потоками информации динамически из одного “окна”.

    - Изменение любого из объектов — характеризует динамическое перестроение всех взаимосвязей и потоков информации в организации.

    - В дальнейшем планируется встроить интеллектуальный поиск информации.

2. Каталог данных — единый источник корпоративных данных.

- Представляет собой инструмент для сбора и обработки метаданных из различных источников.

- Будет иметь общую конфигурацию для функционирования потоков данных, а также конфигурацию для стандартизации/нормализации/обогащения/гармонизации данных.

- Будет реализован функционал получения данных и доступа к ним, проверки качества данных, а также мониторинг работы служб обработки данных (регистрация / проверка / нотификация) .

3. Оптимизатор моделей данных:

- С помощью UI пользователи смогут автоматически создавать, выбирать модели и менять структуры на основании исследования модели интегрируемого источника: DataVault, Snow flake, Hybrid model, Anchor model.

- Также будет реализован функционал автоматического создания и регистрации потока данных из указанного источника.

- В оптимизатор модели будет встроена автоматическая реакция (+ информирование) на изменение структуры / модели текущего источника данных.

4. Анализатор зависимости данных:

- Построение динамического пути данных от начального пользователя до конечного потребителя информации.

- Автоматическая адаптация системы под построение общих паттернов модели для оптимизации работы построения кубов информации.

- Автоматическое определения последовательности восстановления кубов информации в случае аварийной ситуации

5. Предикатор данных и генератор гипотез:

- Динамическая адаптация модели для создания и оптимизации структуры данных.

- Построение модели из неструктурированных данных путем определения таксономий и онтологий.

- Сбор статистики и гистограмм данных для оптимизаций скорости сбора информации путем динамического переопределения механизмов обработки данных.

- Создание Data Mining Crawlers для автоматического поиска сильно/слабо взаимосвязанных данных для предоставления этой информации Аналитикам Данных

По смыслу дедуктивная база знаний это триумвират, который показан на рисунке. Каждый модуль может в отдельности повысить доверие к данным. Комплексное внедрение продукта поднимет процессы Data Governance в компании на качественно новый уровень, мы в satori в это верим.

Важно отметить, что в разработке мы используем только open-source решения для уменьшения стоимости поддержки данного продукта. Если статья наберет должный отклик мы сможем рассказать подробнее про используемые технологии и их применимость в проекте, а также детальнее раскрыть конкретные модули.

Для реализации MVP собираем кейсы разных компаний для того, чтобы сделать максимально юзабельный и полезный продукт, который подходит под наш рынок.

Буду рад ответить на вопросы в комментариях или в WhatsApp

0
150 комментариев
Написать комментарий...
Ignat

Двацатку до повестки или после получили?

Ответить
Развернуть ветку
John Doe
Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы на

По моему я первый внедрял информатику в РФ почти 20 лет назад и даже был их первым дистрибом в РФ. Содержание статьи — или чистая маниловщина или нарисованные красивые картинки, чтобы дали 20 лямов. Тупо посчитать трудозатраты на все, что перечислил автор, — это тысячи человеколет и отнюдь не джунов. Не цветочные магазинчики клепать под копирку. И это если не брать того, что если в команде нет людей с опытом оптимизации трансформаций на объемах 50-80-100Гб структурированных данных за 4-6 часов, то это тупо песочница для мелочевки. А вполне нормальные мелочевые ETL'и есть опен-сорсные и абсолютно бесплатные. Бери не хочу. Форкнуть стоит копейки, а не 20 лямов.

PS Не то, чтобы меня хоть сколько-нибудь волновала судьба Информатики в РФ, но нап%%дели с три короба.

Ответить
Развернуть ветку
10 комментариев
Константин Могилевкин
Автор

Я бы так не улыбался на фото)

Ответить
Развернуть ветку
4 комментария
Михаил Коновалов

двадцатку они получат если ключевые KPI не выполнят.

Ответить
Развернуть ветку
Неопознанный Енот

Встретимся через n лет после проверок. Не так сложно взять денег у государства, куда сложнее не присесть после на проблемы.
(Много видел, много слышал, в одной из контор, в которой работал, гендир еще два года после закрытия компании ночами после основной работы пилил отчеты для проверяющих органов)

Ответить
Развернуть ветку
AeternaMens

Зачем так долго ждать? Сейчас в военкомат позовут, на этом история и закончится.

Ответить
Развернуть ветку
11 комментариев
Михаил Кузнецов

да, брать у государства это как подписать сделку с дьяволом ))

Ответить
Развернуть ветку
4 комментария
Константин Могилевкин
Автор

Надеюсь, нас это обойдет стороной, мы сделаем продукт и покажем его еще) но спасибо, что подсветили риски, мы о них знаем

Ответить
Развернуть ветку
Gera

Не понимаю почему столько негатива в коментах. Проект и ниша очень интересные и востребованные. Задачи для тех спецов будут охрененно сложные и челленджевые, можно только позавидовать — это вам не гребаные крады пилить на галерах, или админки для очередного банка.

Расстраивает только подход «от имеющегося» — но я очень надеюсь, что ребята перерастут копирование функционала и будут делать что-то свое. Тогда будут и побольше гранты 👍

Ответить
Развернуть ветку
Никита

Тут все просто словили дебаф вчерашний. Оказалось, что он еще и ежедневно стакается. Отсюда вся токсятина.

Лично у меня руки опустились так, что все тасочки буду пилить на выходных или сразу на фронтЕ. Или фрОнте.

Ответить
Развернуть ветку
1 комментарий
Константин Могилевкин
Автор

Такие комменты очень мотивируют, спасибо! Мы попытаемся оправдать впши ожидания)

Ответить
Развернуть ветку
Nick Nick

Потому что ничего нет, а деньги уже начали осваивать? А то мы не знаем схему "найми студентов за еду, если что скажешь, что ну не вышло".
Просто челы с картинками получили деньги, ничего нового, но и радоваться нечему. (хотя и о госденьгах беспокоиться не стоит, их сейчас столько закапывают, что тут совсем мелочь)

Ответить
Развернуть ветку
Alex Suv

Для хорошего продукта нужен свободный рынок. Конкурентная среда. Попытка кого-то заместить это фантазии людей которые не умеют работать конкурентной среде. Вы обычные паразиты, которые не выдержат и дня на свободном рынке.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Рынок, как говорится, всех рассудит)

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Сейчас ИТ сектор и правда очень круто поддерживают, спасибо что считаете нас избранными) надеюсь, что и другим отраслям будут помогать

Ответить
Развернуть ветку
4 комментария
Banyanya

20 млн звучит как то, что сольется за подгода. Это же крайне мало для айтишного проекта?

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Да, это правда, но мы постараемся как можно эффективнее использовать помощь государства. Без этой помощи мы бы даже начать не смогли

Ответить
Развернуть ветку
Игорь Дубов

Куда замахнулись:):)
Тинькофф и тот только каталог сделал себе.

Ответить
Развернуть ветку
nukeman
А мы сделали

Что вы сделали? Нарисовали пару картинок?

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Вообще рисовать картинки тоже не просто!

Ответить
Развернуть ветку
1 комментарий
Alexey

Так Вы заместитили что-то или только собираетесь, предварительно получив финансирование?

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Мы в процессе реализации первых двух модулей, 1 ноября будет готов прототип

Ответить
Развернуть ветку
3 комментария
Вадим Руднов

Сказочники и бездельники, которые "сделали" за счет чужих рук!

Ответить
Развернуть ветку
Константин Могилевкин
Автор

У нас пока только свои руки, а почему вы так считаете?

Ответить
Развернуть ветку
1 комментарий
Бро

боже, есть люди которые такие отчаянные что берут деньги у государства.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Есть.

Ответить
Развернуть ветку
Игорь Пронин

Гыг, 20 млн могут сгореть на этапе дизайна админки. Копейки для такого проекта.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Ну мы рады, что нам дали хотя бы какие-то деньги. Это отличный опыт, я считаю

Ответить
Развернуть ветку
2 комментария
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Пожалуйста)

Ответить
Развернуть ветку
1 комментарий
Ирина Нестерова

О, здрасте, Азат Шавкатович. Неужто исполнился тот день, когда тот кого я знаю, окажется на vc. Ну или упомянется, лол.

Ответить
Развернуть ветку
Ирина Нестерова

А вообще проект крутой! (А кто презентацию делал?))

Ответить
Развернуть ветку
1 комментарий
Serge Tikhonenko

Можете в комплекте и две повестки получить.
Как тебе такое, Илон Маск?

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Илон Маск бы был доволен)

Ответить
Развернуть ветку
Алексей

Константин, Apache NiFi не того же класса софт?

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Алексей, видно что вы в теме, спасибо за вопрос) На самом деле да, в ту же сторону, но NiFi покрывает только часть связанный с ETL и обработкой. Мы же пойдем дальше и используя NiFi прикрутим debezium и приблизимся к качеству данных) а дальше пойдем в ML

Ответить
Развернуть ветку
GR

На сайт, видимо, не хватило. Зашел на него - там одна страница и ничего не понятно. Но вы молодцы.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Спасибо) стараемся, сайт согласен, будет лучше)

Ответить
Развернуть ветку
Ферма Киви

Вы большие молодцы! Делаете действительно сложный продукт понятный только для узкого круга лиц, но прочитав понял, что действительно очень важное решение!

Думаю все получится и продукт будет востребован!

Ответить
Развернуть ветку
Ivan the Not So Terrible

Есть хорошая русская пословица "не говори гоп..."

20 млн - это несколько месяцев для средней команды.
Хороший продукт делается годами.

За эти деньги можно собрать из готовых кубиков проект под конкретного заказчика, или прототип от студентов для распила.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Надеюсь, что мы дойдем до работающего прототипа быстрее и успеем сделать первые продажи или привлечь деньги быстрее. С таким подходом, как вы описываете, очень сложно настроиться использовать грантовые деньги ФСИ

Ответить
Развернуть ветку
1 комментарий
Ренат Ренатович

Деньги дали под презентацию и/или ТЗ + бизнес-план?

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Под заявку ФСИ и договор с ними

Ответить
Развернуть ветку
Alexander Voynov

Я семь лет на VC и только пару раз встречал проекты в которые хотел бы всей душой вписаться. Очень релевантная тема моим влажным мечтам.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Александр, ждем вас в команде, велком!

Ответить
Развернуть ветку
under construction

Если говорить о данных внутри организации, то тех, кто допустил такой разброд и шатание надо гнать саными вениками.
Гораздо проще провести стандартизацию к единому формату.

Вы пытаетесь заново изобрести реляционные базы данных?

Ответить
Развернуть ветку
Gera

Вы явно не в теме, проблема есть и она ссаными вениками не решится 😄

Ответить
Развернуть ветку
1 комментарий
Константин Могилевкин
Автор

Мы пытаемся их использовать
На самом деле много компаний где с данными плохо и это не только из-за людей

Ответить
Развернуть ветку
К М

Вашими бы устами

Ответить
Развернуть ветку
Probus 2000

ну и дураки. государство теперь с вас обязательно спросит.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Когда спрашивают - больше мотивации сделать работающий продукт)

Ответить
Развернуть ветку
Яйца Фаберже

Вам просто дали деньги за идею и презентацию, даже без команды, наработок и опыта?

Ответить
Развернуть ветку
Nyet Nicho

Ничего нового, так вся РФ на откатах сидит. Бизнес-логика здесь не при чём. Тут логика по понятиям

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Не просто)

Ответить
Развернуть ветку
2 комментария

Комментарий удален модератором

Развернуть ветку
Константин Могилевкин
Автор

А сколько «отложить» нужно? И вы же про деньги?

Ответить
Развернуть ветку
2 комментария
Vasiliy Leytman

А что там на английском всё?)

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Так быстрее объяснить)

Ответить
Развернуть ветку
5 комментариев
Константин Могилевкин
Автор

Тинькофф еще банк сделал)

Ответить
Развернуть ветку
Banyanya

20 млн звучит как то, что сольется за полгода. Это же крайне мало для айтишного проекта?

Ответить
Развернуть ветку
Павел Гросс-Днепров

Satori, а домен. saytori.ru Так сайтори что ли?

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Пока не накопил 400 тыс рублей чтобы выкупить satori точка ru, в процессе накопления денег:)

Ответить
Развернуть ветку
3 комментария
Sergey Furtaev

А чем/кем замените уходящее, уезжающее и улетающее население?

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Благо у нас в проекте 80% девушек)

Ответить
Развернуть ветку
1 комментарий
Мдидслсл Шишпшпшпщ

Успеете потратить 20 мулов до призыва или нет? :)

Ответить
Развернуть ветку
Константин Могилевкин
Автор

До призыва делать крутые Data решения, боюсь, не успеем

Ответить
Развернуть ветку
leo krich

Как-то лихо государство раздаёт деньги. 20 лямов коммерческой фирме без обязующего договора, без какой-либо ответственности.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Договор конечно есть и ответственности, как тут многие заметили, очень много

Ответить
Развернуть ветку
4 комментария
Dmitry Podluzny

Маленькое финансирование для такого масштабного проект, если бы хотя бы 200 млн., то может можно было бы что-то года через 2 выпустить на посмотреть. Хорошо бы сразу искать источники дополнительных инвестиций, чтобы не буксовать, когда первые деньги закончатся.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Да, Дмитрий очень логичная и правильная мысль, мы держим это в голове, работаем над привлечением доп средств на развитие

Ответить
Развернуть ветку
2 комментария

Комментарий удален модератором

Развернуть ветку
Константин Могилевкин
Автор

Мне не нравится Рендж Ровер

Ответить
Развернуть ветку
Gena

Что такое СВО? Война что ли?

Ответить
Развернуть ветку
AlSh

А в чем прикол, 20 для крутой команды, это не о чем с белой зп. Бюджет закончится быстро, профит будет хз, как за гос Деньги спрашивают по другим сферам знаю, в чем идея? Я конечно понимаю что бизнес это риски не по наслышке, то это абсурдный блюдёт для даты имхо…

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Да, отчасти вы правы, что денег не хватит на все наши задумки, но часть мы точно реализуем и сможем показать работающий минимум и получить клиентов

Ответить
Развернуть ветку
Nyet Nicho

Молодцы. Теперь можно с вещами в военкомат. Замещать так по полной

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Я думаю, что не все военкоматы оценят наше решение)

Ответить
Развернуть ветку
Дмитрий Ходаков

Слишком сложно и наворочено, похоже на то, что результат, который можно оценить и потрогать, для пользователей будет еще очень не скоро. Сила в простоте. Если взять блок только ETL задач и визуального представления, то все легко реализовать с помощью макросов на VBA в Excel. Уже готовое решение и никуда точно не уйдет, бери и используй прямо сейчас.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Вы правы в том, что есть категории задач, которые можно и нужно решать используя Excel. Но уверен при обработке даже более 1 Tb данных Excel уже не поможет и особенно если потребуется асинхронщина

Ответить
Развернуть ветку
Evgeny K

Та что в вы итоге сделали(название статьи)? Смогли получить грант, молодцы поздравляю. Но судя по содержанию статьи все в стадии разработки. Так вот сначала задеплойтесь на продакшн, а потом уже так громко заявляйте что это сделали. Сейчас появилось много импортозамещаторов, но а) большинство ещё не в продакшене, б) большинство консьюмеров не готовы юзать православный софт.

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Спасибо, грант было и правда не так просто получить) надеюсь, вы будете в числе первых, кто увидит работающий продукт, Дата Каталог дошлифовывается, чтобы его опубличить

Ответить
Развернуть ветку
Evgeny K

Та что в вы итоге сделали(название статьи)? Смогли получить грант, молодцы поздравляю. Но судя по содержанию статьи все в стадии разработки. Так вот сначала задеплойтесь на продакшн, а потом уже так громко заявляйте что это сделали. Сейчас появилось много импортозамещаторов, но а) большинство ещё не в продакшене, б) большинство консьюмеров не готовы юзать православный софт.

Ответить
Развернуть ветку
Lord, bless me

Deleted

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Такие операции в БД мы избегаем)

Ответить
Развернуть ветку
Artem Sovetnikov

Зачем это все что бы посчитать деньги для Татарстана? Тут способы расчета и данные нужны подходящие
А управление качеством данных это всегда очень специфическая задача, чтобы комбайны такие могли существенно помочь с ней

Ответить
Развернуть ветку
Константин Могилевкин
Автор

Если мы по щелчку сможем посчитать этот кейс, это уже будет победой :)

Ответить
Развернуть ветку
1 комментарий
Российские аналоги

👍

Ответить
Развернуть ветку
147 комментариев
Раскрывать всегда