Apache Superset vs Power BI. Плюсы и минусы систем аналитики

В январе 2023 года компания столкнулась с ограничениями по работе в системе отчетности и аналитики данных на платформе Power BI Report Server 2019. Дополнительными факторами стали массовые сбои в автоматических обновлениях отчетов, в особенности с большими объемами данных.

Мы сформировали команду BI-аналитиков перед которой поставили задачу по выбору, настройке и администрированию новой системы отчётности. Исходя из технических требований, мы выбрали Apache Superset – одну из самых интересных Open Source платформ для работы с большим объемом данных.

Apache Superset vs Power BI. Плюсы и минусы систем аналитики

Плюсы Apache Superset:

1. Инструмент с открытым исходным кодом, есть дополнительная возможность кастомизации под требования нашей компании;

2. Система дает возможность подключаться к широкому спектру источников данных, включая базы данных SQL, платформы больших данных и даже файлы CSV;

3. Apache Superset предоставляет богатый набор визуализаций, что важно для дифференциации отображения данных;

4. У системы широкое комьюнити, которое постоянно развивается. Это дает возможность знакомиться с лучшими практиками и внедрять в нашей компании.

Вместе с плюсами, у системы есть и недостатки.

- Одним из них является то, что у системы нет официальной платной поддержки;

- И, конечно, Superset может оказаться не таким удобным для пользователя, как PowerBI, переход с одной системы на другую может оказаться довольно сложным для команд, особенно с непривычки.

Для нашей команды плюсы перевесили минусы системы, и мы продолжили работу.

После установки и реализации блока работ по интеграции Apache Superset в нашу аналитическую инфраструктуру, мы настроили дашборды и систему корпоративного доступа к ним с использованием Active Directory. Обновление отчета в 5 млн. строк ускорилось в 10 раз, с 10 минут до 1.

Ряд отчётов требовал объединения данных из нескольких источников. В Superset нет встроенной функции по консолидации данных с разных серверов. Для решения задачи мы внедрили ETL-систему на базе Apache Airflow, которая при взаимодействии с Apache Superset помогла закрыть все потребности по обработке и интеграции показателей. Была создана отдельная схема в БД для загрузки в неё информации. Настроен и внедрен специализированный фреймворк и импорт данных через SQL-запросы, что в последствии не требовало от нас каких-либо дополнительных действий.

Благодаря внедрению новой системы мы автоматизировали отчётность и ее отправку пользователям по основным показателям деятельности компании, настроили мониторинг, увеличили скорость формирования сложных дашбордов, например, для DMC, где объем данных составляет 0,5 миллиарда строк.

Сейчас мы продолжаем работу и создаем мобильное приложение, которое обеспечит доступ к отчетам из любой точки и даст возможность коллегам использовать сервис в удобной форме, в любое время и с любого устройства. Это еще один шаг в создании единой централизованной системы отчетности для нашей компании.

#apache #powerbi