Memproses XML kompleks di Hadoop untuk mengekstrak data

Saya ingin memproses XML yang diformat di Hadoop, yang cukup rumit dan besar serta mengandung loop.

Saya mencoba opsi berikut:

  1. Memuat XML ke Hive sebagai satu kolom dan menggunakan kueri XPATH.
  2. Buat tabel Hive menggunakan SerDe.
  3. Muat XML menggunakan PIG menggunakan XMLLoader.

Opsi 1 mungkin dilakukan, namun menjadi sulit jika data diperoleh jauh di dalam XML.

Untuk Opsi 2 dan 3 Hive SerDe dan Pig Loader memerlukan Skema untuk didefinisikan secara eksplisit, sehingga tidak dapat dilakukan.

Apakah ada pendekatan lain?


person Sourabh Potnis    schedule 09.01.2014    source sumber


Jawaban (1)


Anda dapat menggunakan pig dan Pig UDF untuk mengekstrak data dari file XML. Untuk mengekstrak data Anda dapat menggunakan ekspresi reguler atau Xpath. Anda dapat menggunakan piggybank untuk beberapa operasi.

person Sandeep Singh    schedule 10.01.2014