Доржи Дашибалов

+19
с 2021
0 подписчиков
27 подписок

> - Тут не совсем поняли, при чём тут Python?а что находится в узлах DAG, если там нет ни трансформаций, ни скриптов Python?
Голым SQL нельзя заджойнить разные источники данных (без dblink'ов)

если открыть программу курса Data Engineer karpov.courses, то в качестве ETL-инструмента там назван Apache Airflow. Да, его можно использовать для импорта данных, в узлы DAG напихать скрипты SQL(скорее ELT подход) и Python. Airflow - это оркестратор, который должен вызывать трансформации NIFi или Pentaho, или другой ETL-инструмент. Заджойнить 15 таблиц с логикой, и так чтобы источники данных были из 5 разных мест, и так чтобы через пару лет коллега разобрался и скорректировал - это не совсем для Python.
Можно не использовать Airflow, написать вызовы на bash, с логированием и алертами. И будет ли тогда bash - ETL инструментом?

Майкл продавал в хорошие руки. И когда его детище (и кстати My и Maria имена его дочерей) попало в лапы Oracle, то он забеспокоился, Oracle проще задавить внутреннего конкурента MySQL (есть же бесплатный Oracle XE) чем развивать.
Поэтому он и создал форк. И был прав.

2

Самая длинная сельская улица мира по мнению Гиннес (17 км, с.Бичура, Республика Бурятия) передает привет

5

Я бы поставил расширение, джва года жду, с блокировкой всякой хрени на ютубе - политота, кулинария, как мы всех победили, супероружие, мма; стоит выйти из гуглопочты как все это засирает ленту.
Рунет в целом умер. Тот же пикабу превратился в нытье kill-me-plz. Новости генерируются переводами из редита и цитированием криминальных сводок.

2

Многих бесят длинные рекламные однотипные введения к книгам американских авторов. абзац-два - ок, но 50 страниц это перебор. Быстро вырабатывается привычка пролистывать вперед.
То же с ютуб роликами, если не удалось найти статью с фото, все листают на 5 мин вперед, подальше от "подписывайтесь, ставьте лайки".
А "проблема-решение" работало и 150 лет назад.

9

А чем не устраивал штатный sqlplus? В 12.2 есть корректная выгрузка csv.
После выгрузки таблицы запаковываете ее gz, 40-50 гб займет

1