Kueri Hive yang dioptimalkan dengan JOIN , memiliki jutaan catatan

Saya punya 2 meja-

bpm_agent_data  - 40 Million records , 5 Columns
bpm_loan_data  - 20 Million records, 5 Columns

Sekarang saya menjalankan kueri di Hive-

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data where bpm_loan_data.id = bpm_agent_data.id;

yang membutuhkan waktu lama untuk menyelesaikannya. Apa cara ideal untuk menulis kueri dalam HIVE sehingga Reducer tidak memakan banyak waktu.


person Abhishek Choudhary    schedule 06.05.2014    source sumber


Jawaban (1)


Temukan solusi untuk kueri di atas, ganti dengan ON

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data ON( bpm_loan_data.id = bpm_agent_data.id);
person Abhishek Choudhary    schedule 06.05.2014