Недавно мне потребовалось сделать большую выборку данных (несколько млн. записей) и возник вопрос, как сохранить полученный результат для последующей обработки, т.к. на Hive выгрузить такой объем не представлялось возможным.
Недооцениваете ORC. У него можно дописывать файлы. Может быть полезно, особенно если пришли новые данные, которые нужно дописать в файл
Спасибо за комментарий!
Вы правы, для каждой задачи есть своё оптимальное решение.