ฉันต้องการประมวลผล XML ที่จัดรูปแบบแล้วใน Hadoop ซึ่งค่อนข้างซับซ้อนและใหญ่มาก และยังมีลูปด้วย
ฉันลองตัวเลือกต่อไปนี้:
- โหลด XML ลงใน Hive เป็นคอลัมน์เดียวและใช้คำสั่ง XPATH
- สร้างตาราง Hive โดยใช้ SerDe
- โหลด XML โดยใช้ PIG โดยใช้ XMLLoader
ตัวเลือกที่ 1 เป็นไปได้ แต่จะยากในกรณีที่รับข้อมูลลึกมากภายใน XML
สำหรับตัวเลือกที่ 2 และ 3 Hive SerDe และ Pig Loader จำเป็นต้องกำหนด Schema อย่างชัดเจน จึงไม่สามารถทำได้
มีแนวทางอื่นอีกหรือไม่?