Важным замечанием является то, что функцию json_normalize следует выполнять именно на массиве словарей внутри подпроцессов, а не на каждом отдельном файле. Если же поставить преобразование в pandas каждого файла отдельно и итерировано добавлять в pd.DataFrame по строчке, то это замедлит выполнение в 3 раза. Главное правило преобразования чего-либо в pandas, делать саму трансформацию как можно позднее.
не понятно, зачем здесь петухон, он же медленный. Если не нужен мастер процесс (шареная память), то если не быстрее, то примерно так же будет работать php pcntl. Если все же шареная память нужна - нода + worker_threads. Если нужно запускаться нативно на всех системах, без установки окружений go.
Добрый день! В данной статье описываются возможности именно python для преобразования в известный аналитикам pandas Dataframe. Не спорю, что можно придумать и более изощренные варианты распределенной обработки на других языках, сохранять в csv и далее загружать питоном в pandas)
Комментарий недоступен
_