เพิ่มประสิทธิภาพการสืบค้น Hive ด้วย JOIN ซึ่งมีบันทึกนับล้านรายการ

ฉันมี 2 โต๊ะ-

bpm_agent_data  - 40 Million records , 5 Columns
bpm_loan_data  - 20 Million records, 5 Columns

ตอนนี้ฉันเรียกใช้แบบสอบถามใน Hive-

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data where bpm_loan_data.id = bpm_agent_data.id;

ซึ่งใช้เวลานานมากจึงจะเสร็จสมบูรณ์ วิธีใดควรเป็นวิธีที่เหมาะสมที่สุดในการเขียนแบบสอบถามใน HIVE เพื่อที่ตัวลดจะต้องไม่ใช้เวลามากนัก


person Abhishek Choudhary    schedule 06.05.2014    source แหล่งที่มา


คำตอบ (1)


พบวิธีแก้ปัญหาสำหรับข้อความค้นหาข้างต้น โดยแทนที่ตำแหน่งด้วย ON

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data ON( bpm_loan_data.id = bpm_agent_data.id);
person Abhishek Choudhary    schedule 06.05.2014