การประมวลผล XML ที่ซับซ้อนใน Hadoop เพื่อดึงข้อมูล

ฉันต้องการประมวลผล XML ที่จัดรูปแบบแล้วใน Hadoop ซึ่งค่อนข้างซับซ้อนและใหญ่มาก และยังมีลูปด้วย

ฉันลองตัวเลือกต่อไปนี้:

  1. โหลด XML ลงใน Hive เป็นคอลัมน์เดียวและใช้คำสั่ง XPATH
  2. สร้างตาราง Hive โดยใช้ SerDe
  3. โหลด XML โดยใช้ PIG โดยใช้ XMLLoader

ตัวเลือกที่ 1 เป็นไปได้ แต่จะยากในกรณีที่รับข้อมูลลึกมากภายใน XML

สำหรับตัวเลือกที่ 2 และ 3 Hive SerDe และ Pig Loader จำเป็นต้องกำหนด Schema อย่างชัดเจน จึงไม่สามารถทำได้

มีแนวทางอื่นอีกหรือไม่?


person Sourabh Potnis    schedule 09.01.2014    source แหล่งที่มา


คำตอบ (1)


คุณสามารถใช้ pig และ Pig UDF เพื่อแยกข้อมูลจากไฟล์ XML สำหรับการแยกข้อมูล คุณสามารถใช้นิพจน์ทั่วไปหรือ Xpath คุณสามารถใช้ piggybank สำหรับการดำเนินการหลายอย่าง

person Sandeep Singh    schedule 10.01.2014