Kueri Hive yang dioptimalkan dengan JOIN , memiliki jutaan catatan

Saya punya 2 meja-

bpm_agent_data  - 40 Million records , 5 Columns
bpm_loan_data  - 20 Million records, 5 Columns

Sekarang saya menjalankan kueri di Hive-

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data where bpm_loan_data.id = bpm_agent_data.id;

yang membutuhkan waktu lama untuk menyelesaikannya. Apa cara ideal untuk menulis kueri dalam HIVE sehingga Reducer tidak memakan banyak waktu.

hadoop hive

Abhishek Choudhary 06.05.2014 sumber

Jawaban (1)

arrow_upward
1
arrow_downward

Temukan solusi untuk kueri di atas, ganti dengan ON

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data ON( bpm_loan_data.id = bpm_agent_data.id);

Abhishek Choudhary 06.05.2014

Kueri Hive yang dioptimalkan dengan JOIN , memiliki jutaan catatan

Jawaban (1)

Pertanyaan tentang topik tersebut