Apache Superset vs Power BI. Плюсы и минусы систем аналитики

Apache Superset в сравнении с Power BI

В январе 2023 года компания столкнулась с ограничениями по работе в системе отчетности и аналитики данных на платформе Power BI Report Server 2019. Дополнительными факторами стали массовые сбои в автоматических обновлениях отчетов, в особенности с большими объемами данных.

Мы сформировали команду BI-аналитиков перед которой поставили задачу по выбору, настройке и администрированию новой системы отчётности. Исходя из технических требований, мы выбрали Apache Superset – одну из самых интересных Open Source платформ для работы с большим объемом данных.

Плюсы Apache Superset:

1. Инструмент с открытым исходным кодом, есть дополнительная возможность кастомизации под требования нашей компании;

2. Система дает возможность подключаться к широкому спектру источников данных, включая базы данных SQL, платформы больших данных и даже файлы CSV;

3. Apache Superset предоставляет богатый набор визуализаций, что важно для дифференциации отображения данных;

4. У системы широкое комьюнити, которое постоянно развивается. Это дает возможность знакомиться с лучшими практиками и внедрять в нашей компании.

Вместе с плюсами, у системы есть и недостатки.

- Одним из них является то, что у системы нет официальной платной поддержки;

- И, конечно, Superset может оказаться не таким удобным для пользователя, как PowerBI, переход с одной системы на другую может оказаться довольно сложным для команд, особенно с непривычки.

Для нашей команды плюсы перевесили минусы системы, и мы продолжили работу.

После установки и реализации блока работ по интеграции Apache Superset в нашу аналитическую инфраструктуру, мы настроили дашборды и систему корпоративного доступа к ним с использованием Active Directory. Обновление отчета в 5 млн. строк ускорилось в 10 раз, с 10 минут до 1.

Ряд отчётов требовал объединения данных из нескольких источников. В Superset нет встроенной функции по консолидации данных с разных серверов. Для решения задачи мы внедрили ETL-систему на базе Apache Airflow, которая при взаимодействии с Apache Superset помогла закрыть все потребности по обработке и интеграции показателей. Была создана отдельная схема в БД для загрузки в неё информации. Настроен и внедрен специализированный фреймворк и импорт данных через SQL-запросы, что в последствии не требовало от нас каких-либо дополнительных действий.

Благодаря внедрению новой системы мы автоматизировали отчётность и ее отправку пользователям по основным показателям деятельности компании, настроили мониторинг, увеличили скорость формирования сложных дашбордов, например, для DMC, где объем данных составляет 0,5 миллиарда строк.

Сейчас мы продолжаем работу и создаем мобильное приложение, которое обеспечит доступ к отчетам из любой точки и даст возможность коллегам использовать сервис в удобной форме, в любое время и с любого устройства. Это еще один шаг в создании единой централизованной системы отчетности для нашей компании.

Александр Пономарев 

Начальник отдела развития информационных систем FUN&SUN

0
2 комментария
Edgard Gomez

Как-то коротко. "Мы переехали на superset, потому что надо было куда-то переезжать. В 2024 решили настроить пайплайны в airflow", когда это уже является мейнстримом последние года 3-4.
Интереснее узнать (с точки зрения текста и статьи) почему до этого ничего такого не было? Смотря на DAGs хочется спросить - каким образом устроено их создание, т.к. видно, что они однотипные, как они взаимодействуют между собой? Есть ли watchers, какая-нибудь система для отслеживания и сигнализации ошибок? SLA? Какой сервер / кластер? Какая БД (не для каждой 500 млн строк является сколько-нибудь значимым препятствием, требующим особенного подхода)?

Ответить
Развернуть ветку
FUNSUN
Автор

Мы скорее про впечатления от использования apache superset в корпоративном сегменте. Про airflow напишем отдельно, расскажем, в том числе про автоматизацию создания DAG ))

Ответить
Развернуть ветку
-1 комментариев
Раскрывать всегда