การประมวลผล XML ที่ซับซ้อนใน Hadoop เพื่อดึงข้อมูล

ฉันต้องการประมวลผล XML ที่จัดรูปแบบแล้วใน Hadoop ซึ่งค่อนข้างซับซ้อนและใหญ่มาก และยังมีลูปด้วย

ฉันลองตัวเลือกต่อไปนี้:

โหลด XML ลงใน Hive เป็นคอลัมน์เดียวและใช้คำสั่ง XPATH
สร้างตาราง Hive โดยใช้ SerDe
โหลด XML โดยใช้ PIG โดยใช้ XMLLoader

ตัวเลือกที่ 1 เป็นไปได้ แต่จะยากในกรณีที่รับข้อมูลลึกมากภายใน XML

สำหรับตัวเลือกที่ 2 และ 3 Hive SerDe และ Pig Loader จำเป็นต้องกำหนด Schema อย่างชัดเจน จึงไม่สามารถทำได้

มีแนวทางอื่นอีกหรือไม่?

Sourabh Potnis 09.01.2014 แหล่งที่มา

คำตอบ (1)

arrow_upward
0
arrow_downward

คุณสามารถใช้ pig และ Pig UDF เพื่อแยกข้อมูลจากไฟล์ XML สำหรับการแยกข้อมูล คุณสามารถใช้นิพจน์ทั่วไปหรือ Xpath คุณสามารถใช้ piggybank สำหรับการดำเนินการหลายอย่าง

Sandeep Singh 10.01.2014

การประมวลผล XML ที่ซับซ้อนใน Hadoop เพื่อดึงข้อมูล

คำตอบ (1)

คำถามในหัวข้อ