Обработка сложного XML в Hadoop для извлечения данных

Я хочу обработать отформатированный XML в Hadoop, который довольно сложен и огромен, а также содержит циклы.

Я пробовал следующие варианты:

Загружать XML-файлы в Hive в виде одного столбца и использовать запросы XPATH.
Создайте таблицу Hive с помощью SerDe.
Загрузите XML-файлы с помощью PIG с помощью XMLLoader.

Вариант 1 возможен, но становится трудным в случае очень глубокого получения данных в XML.

Для вариантов 2 и 3 Hive SerDe и Pig Loader требуют, чтобы схема была определена явно, поэтому это невозможно сделать.

Есть ли другой подход?

Sourabh Potnis 09.01.2014 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вы можете использовать Pig и Pig UDF для извлечения данных из файлов XML. Для извлечения данных вы можете использовать регулярное выражение или Xpath. Вы можете использовать копилку для нескольких операций.

Sandeep Singh 10.01.2014

Обработка сложного XML в Hadoop для извлечения данных

Ответы (1)

Вопросы по теме