У нас была Kafka, 80 млн исторических данных в одной таблице в PostgreSQL, Apache Nifi, Clickhouse, Apache HDFS, Hive, Spark, Superset и OpenMetaData. Не то чтобы это был необходимый запас для построения озера данных, но раз уж начал использовать apache, то сложно остановиться.
Облако, озеро... а дальше эмм... лес?)
Случайный лес.
Random forest в машин лернинге на озере данных
Дальше или болото (если озеро грязное) или отличная погода (если облаков нет)
Лес уже есть (лес отношений в домене)
Реально крутой кейс, Константин
Спасибо, сами в шоке)
Создали «озеро данных» для одной из самых больших в мире гидрогенерирующих компаний за 7,5 мес командой из 11 человек — Сервисы на vc.ru
• Satori успешно спроектировал и внедрил озеро данных в компанию РусГидро Ит Сервис в рамках развития единой информационной платформы.
• Внедрение озера данных и развитие ЕИП актуальны для компаний с множеством ИТ-систем в ландшафте.
• В кейсе рассказывается о настройке ЕИП с техническими деталями и решении проблем, таких как отсутствие правильно выстроенного единого хранилища данных и понимания атрибутивного состава сообщений, передаваемых между системами.
• В проекте использовались Open Source компоненты, что привело к багам и необходимости обновлений.
• В результате проекта были выстроены единое хранилище данных, единый каталог метаданных и настроена автоматическая отчетность и визуализация данных.
• Заказчику были предоставлены результаты, включая повышение управляемости, снижение затрат на развитие IT-ландшафта и создание гибкой ЕИП с высокой скоростью обработки сообщений и отказоустойчивостью.