Оптимизирован запрос Hive с помощью JOIN с миллионом записей.

У меня есть 2 таблицы-

bpm_agent_data  - 40 Million records , 5 Columns
bpm_loan_data  - 20 Million records, 5 Columns

Теперь я выполнил запрос в Hive-

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data where bpm_loan_data.id = bpm_agent_data.id;

который занимает много времени для завершения. Каким должен быть идеальный способ написать запрос в HIVE, чтобы Reducer не занимал так много времени.


person Abhishek Choudhary    schedule 06.05.2014    source источник


Ответы (1)


Нашел решение для вышеуказанного запроса, заменил где на ON

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data ON( bpm_loan_data.id = bpm_agent_data.id);
person Abhishek Choudhary    schedule 06.05.2014