Data Engineer: профессия на границе разработки и Data Science

Люди, которых нужно первыми нанимать в отдел аналитики

Data Engineer: профессия на границе разработки и Data Science
4040

если открыть программу курса Data Engineer karpov.courses, то в качестве ETL-инструмента там назван Apache Airflow. Да, его можно использовать для импорта данных, в узлы DAG напихать скрипты SQL(скорее ELT подход) и Python. Airflow - это оркестратор, который должен вызывать трансформации NIFi или Pentaho, или другой ETL-инструмент. Заджойнить 15 таблиц с логикой, и так чтобы источники данных были из 5 разных мест, и так чтобы через пару лет коллега разобрался и скорректировал - это не совсем для Python.
Можно не использовать Airflow, написать вызовы на bash, с логированием и алертами. И будет ли тогда bash - ETL инструментом?

Ответить

Давайте попробуем разобраться)

если открыть программу курса Data Engineer karpov.courses, TO B качестве ETL-инструмента там назван Apache Airflow. - Тут всё верно.

Да, его можноиспользовать для импорта данных, в узлы DAG напихать скрипты SQL(скорее ELT подход) и Python. - Почему для импорта? В узлах действительно можно писать любые вычисления по поводу разницы ETL/ELT, но мы на курсе это поясняем

Airflow - это оркестратор, который должен вызывать трансформации NIFi или Pentaho, или другой ETL-инструмент.
- Airflow — это правда оркестратор. Но почему он должен вызывать трансформации?

Заджойнить 15 таблиц с логикой, и так чтобы источники данных были из 5 разных мест, и так чтобы через пару лет коллега разобрался и скорректировал - это не совсем для Python.- Тут не совсем поняли, при чём тут Python?

Ответить