У меня есть многораздельная таблица ORC в Hive. После загрузки таблицы со всеми возможными разделами я попадаю на HDFS - несколько файлов ORC, то есть в каждом каталоге разделов на HDFS есть файл ORC. Мне нужно объединить все эти файлы ORC в каждом разделе в один большой файл ORC для некоторого варианта использования.
Может ли кто-нибудь предложить мне способ объединить эти несколько файлов ORC (принадлежащих каждому разделу) в один большой файл ORC.
Я пробовал создать новую Non Partitioned ORC таблицу из Partitioned таблицы. Это действительно уменьшает количество файлов, но не до одного файла.
PS: Создание таблицы из другой таблицы - это полностью задача карты и, следовательно, установка количества редукторов на 1 с помощью свойства 'set mapred.reduce.tasks = 1;' не помогает.
Спасибо