Оптимизирован запрос Hive с помощью JOIN с миллионом записей.

У меня есть 2 таблицы-

bpm_agent_data  - 40 Million records , 5 Columns
bpm_loan_data  - 20 Million records, 5 Columns

Теперь я выполнил запрос в Hive-

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data where bpm_loan_data.id = bpm_agent_data.id;

который занимает много времени для завершения. Каким должен быть идеальный способ написать запрос в HIVE, чтобы Reducer не занимал так много времени.

hadoop hive

Abhishek Choudhary 06.05.2014 источник

Ответы (1)

arrow_upward
1
arrow_downward

Нашел решение для вышеуказанного запроса, заменил где на ON

select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from bpm_agent_data JOIN bpm_loan_data ON( bpm_loan_data.id = bpm_agent_data.id);

Abhishek Choudhary 06.05.2014

Оптимизирован запрос Hive с помощью JOIN с миллионом записей.

Ответы (1)

Вопросы по теме