Благодаря внедрению новой системы мы автоматизировали отчётность и ее отправку пользователям по основным показателям деятельности компании, настроили мониторинг, увеличили скорость формирования сложных дашбордов, например, для DMC, где объем данных составляет 0,5 миллиарда строк.
Как-то коротко. "Мы переехали на superset, потому что надо было куда-то переезжать. В 2024 решили настроить пайплайны в airflow", когда это уже является мейнстримом последние года 3-4.
Интереснее узнать (с точки зрения текста и статьи) почему до этого ничего такого не было? Смотря на DAGs хочется спросить - каким образом устроено их создание, т.к. видно, что они однотипные, как они взаимодействуют между собой? Есть ли watchers, какая-нибудь система для отслеживания и сигнализации ошибок? SLA? Какой сервер / кластер? Какая БД (не для каждой 500 млн строк является сколько-нибудь значимым препятствием, требующим особенного подхода)?
Мы скорее про впечатления от использования apache superset в корпоративном сегменте. Про airflow напишем отдельно, расскажем, в том числе про автоматизацию создания DAG ))