Что такое Parquet и зачем он пригодится?

Недавно мне потребовалось сделать большую выборку данных (несколько млн. записей) и возник вопрос, как сохранить полученный результат для последующей обработки, т.к. на Hive выгрузить такой объем не представлялось возможным.

1010

Недооцениваете ORC. У него можно дописывать файлы. Может быть полезно, особенно если пришли новые данные, которые нужно дописать в файл

Ответить
Автор

Спасибо за комментарий!
Вы правы, для каждой задачи есть своё оптимальное решение.

Ответить