Основное о Hadoop и Hive

Недавно начал работать с Hadoop. Есть таблица Checkout, к которой я обращаюсь через Hive. А ниже путь, по которому данные идут в HDFS и прочая информация. Итак, какую информацию я могу получить, если мне нужно прочитать три строчки ниже?

          Path                                      Size           Record Count      Date Loaded
/sys/edw/dw_checkout_trans/snapshot/2012/07/04/00   1.13 TB       9,294,245,800      2012-07-05 07:26
/sys/edw/dw_checkout_trans/snapshot/2012/07/03/00   1.13 TB       9,290,477,963      2012-07-04 09:37
/sys/edw/dw_checkout_trans/snapshot/2012/07/02/00   1.12 TB       9,286,199,847      2012-07-03 07:08

Итак, мой вопрос-

1) Во-первых, мы загружаем данные в HDFS, а затем через Hive я запрашиваю их, чтобы вернуть результат? Верно?

2) Во-вторых, когда вы смотрите на указанный выше путь и другие вещи, единственное, что меня смущает, это то, что когда я буду запрашивать с помощью Hive, я буду получать данные со всех трех путей выше? или самый последний вверху?

Поскольку я новичок в этих вещах, у меня много проблем. Кто-нибудь может объяснить мне, откуда улей получает данные? И мы храним все данные в HDFS, а затем используем Hive или Pig для возврата данных из HDFS? И будет здорово, если кто-нибудь даст знания о Hadoop и Hive на высоком уровне.


person arsenal    schedule 06.07.2012    source источник


Ответы (1)


Я думаю, вам нужно понять разницу между собственной таблицей Hive и внешней таблицей Hive.
Собственная таблица Hive означает, что вы загружаете данные в hive, и она заботится о том, как данные хранятся в HDFS. Обычно в этом случае нам все равно, что такое структура каталогов.
Hive External table означает, что мы помещаем данные в какую-то директорию (если на время забыть о партиционировании) и говорим Hive - это данные таблицы. Пожалуйста, относитесь к этому как таковому. И hive позволяет нам запрашивать его, объединяться с другой внешней или обычной таблицей. Мы несем ответственность за добавление данных, их удаление и т. д.

person David Gruzman    schedule 06.07.2012