Я хочу обработать отформатированный XML в Hadoop, который довольно сложен и огромен, а также содержит циклы.
Я пробовал следующие варианты:
- Загружать XML-файлы в Hive в виде одного столбца и использовать запросы XPATH.
- Создайте таблицу Hive с помощью SerDe.
- Загрузите XML-файлы с помощью PIG с помощью XMLLoader.
Вариант 1 возможен, но становится трудным в случае очень глубокого получения данных в XML.
Для вариантов 2 и 3 Hive SerDe и Pig Loader требуют, чтобы схема была определена явно, поэтому это невозможно сделать.
Есть ли другой подход?