Обработка сложного XML в Hadoop для извлечения данных

Я хочу обработать отформатированный XML в Hadoop, который довольно сложен и огромен, а также содержит циклы.

Я пробовал следующие варианты:

  1. Загружать XML-файлы в Hive в виде одного столбца и использовать запросы XPATH.
  2. Создайте таблицу Hive с помощью SerDe.
  3. Загрузите XML-файлы с помощью PIG с помощью XMLLoader.

Вариант 1 возможен, но становится трудным в случае очень глубокого получения данных в XML.

Для вариантов 2 и 3 Hive SerDe и Pig Loader требуют, чтобы схема была определена явно, поэтому это невозможно сделать.

Есть ли другой подход?


person Sourabh Potnis    schedule 09.01.2014    source источник


Ответы (1)


Вы можете использовать Pig и Pig UDF для извлечения данных из файлов XML. Для извлечения данных вы можете использовать регулярное выражение или Xpath. Вы можете использовать копилку для нескольких операций.

person Sandeep Singh    schedule 10.01.2014