วิธีรวมไฟล์ ORC หลายไฟล์ (เป็นของแต่ละพาร์ติชัน) ในตาราง Partitioned Hive ORC ให้เป็นไฟล์ ORC ขนาดใหญ่ไฟล์เดียว

ฉันมีตาราง ORC ที่แบ่งพาร์ติชันใน Hive หลังจากโหลดตารางด้วยพาร์ติชันที่เป็นไปได้ทั้งหมด ฉันจะได้รับ HDFS - ไฟล์ ORC หลายไฟล์ เช่น แต่ละไดเร็กทอรีพาร์ติชันบน HDFS มีไฟล์ ORC อยู่ในนั้น ฉันจำเป็นต้องรวมไฟล์ ORC เหล่านี้ทั้งหมดไว้ในแต่ละพาร์ติชันให้เป็นไฟล์ ORC ขนาดใหญ่ไฟล์เดียวสำหรับการใช้งานบางกรณี

ใครช่วยแนะนำวิธีรวมไฟล์ ORC หลายไฟล์เหล่านี้ (ที่เป็นของแต่ละพาร์ติชั่น) ให้ฉันเป็นไฟล์ ORC ขนาดใหญ่ไฟล์เดียวได้ไหม

ฉันได้ลองสร้างตาราง ORC ที่ไม่แบ่งพาร์ติชันใหม่จากตารางที่แบ่งพาร์ติชัน .. มันจะลดจำนวนไฟล์ แต่ไม่ใช่ไฟล์เดียว

PS: การสร้างตารางจากอีกตารางหนึ่งถือเป็นงานแผนที่โดยสมบูรณ์ ดังนั้นการตั้งค่าจำนวนตัวลดเป็น 1 โดยใช้คุณสมบัติ 'set mapred.reduce.tasks=1;' ไม่ได้ช่วยอะไร

ขอบคุณ


person Anchit Jatana    schedule 29.12.2017    source แหล่งที่มา


คำตอบ (1)