Техлид с опытом в дата-инжиниринге, выложил на Reddit в сабреддите r/dataengineering свой взгляд на open source инструменты для 2025 года. См. картинку, ну очень сложно - кликабельная, кстати.

Он три года работал в изолированных средах, где облака были под запретом, и сосредотачивался больше на платформенной части, чем на работе с данными. За это время к задачам дата-инженеров добавились DevOps, MLOps, LLM, RAG и дата-лейкхаусы, помимо классических дата-стеков и хранилищ.

Его подборка - набор инструментов вроде Apache Airflow, Spark, Kafka, dbt, PostgreSQL, ClickHouse и других, которые он использует для разных кейсов. Например, для оркестрации - Airflow, для аналитики - Superset, для машинного обучения - MLflow и JupyterHub.

В комментариях народ активно обсуждает. Есть идеи добавить Redash для визуализации или Ballista с DataFusion для замены Spark.

Мне одному кажется, что это слишком заморочисто :) ? Прикиньте, сколько надо учиться, чтобы освоить такую специальность?!

Подписывайтесь на Telegram Русский ИТ бизнес 👨.

Начать дискуссию