ฉันมีตาราง ORC ที่แบ่งพาร์ติชันใน Hive หลังจากโหลดตารางด้วยพาร์ติชันที่เป็นไปได้ทั้งหมด ฉันจะได้รับ HDFS - ไฟล์ ORC หลายไฟล์ เช่น แต่ละไดเร็กทอรีพาร์ติชันบน HDFS มีไฟล์ ORC อยู่ในนั้น ฉันจำเป็นต้องรวมไฟล์ ORC เหล่านี้ทั้งหมดไว้ในแต่ละพาร์ติชันให้เป็นไฟล์ ORC ขนาดใหญ่ไฟล์เดียวสำหรับการใช้งานบางกรณี
ใครช่วยแนะนำวิธีรวมไฟล์ ORC หลายไฟล์เหล่านี้ (ที่เป็นของแต่ละพาร์ติชั่น) ให้ฉันเป็นไฟล์ ORC ขนาดใหญ่ไฟล์เดียวได้ไหม
ฉันได้ลองสร้างตาราง ORC ที่ไม่แบ่งพาร์ติชันใหม่จากตารางที่แบ่งพาร์ติชัน .. มันจะลดจำนวนไฟล์ แต่ไม่ใช่ไฟล์เดียว
PS: การสร้างตารางจากอีกตารางหนึ่งถือเป็นงานแผนที่โดยสมบูรณ์ ดังนั้นการตั้งค่าจำนวนตัวลดเป็น 1 โดยใช้คุณสมบัติ 'set mapred.reduce.tasks=1;' ไม่ได้ช่วยอะไร
ขอบคุณ