Saya ingin memproses XML yang diformat di Hadoop, yang cukup rumit dan besar serta mengandung loop.
Saya mencoba opsi berikut:
- Memuat XML ke Hive sebagai satu kolom dan menggunakan kueri XPATH.
- Buat tabel Hive menggunakan SerDe.
- Muat XML menggunakan PIG menggunakan XMLLoader.
Opsi 1 mungkin dilakukan, namun menjadi sulit jika data diperoleh jauh di dalam XML.
Untuk Opsi 2 dan 3 Hive SerDe dan Pig Loader memerlukan Skema untuk didefinisikan secara eksplisit, sehingga tidak dapat dilakukan.
Apakah ada pendekatan lain?