Недавно начал работать с Hadoop. Есть таблица Checkout, к которой я обращаюсь через Hive. А ниже путь, по которому данные идут в HDFS и прочая информация. Итак, какую информацию я могу получить, если мне нужно прочитать три строчки ниже?
Path Size Record Count Date Loaded
/sys/edw/dw_checkout_trans/snapshot/2012/07/04/00 1.13 TB 9,294,245,800 2012-07-05 07:26
/sys/edw/dw_checkout_trans/snapshot/2012/07/03/00 1.13 TB 9,290,477,963 2012-07-04 09:37
/sys/edw/dw_checkout_trans/snapshot/2012/07/02/00 1.12 TB 9,286,199,847 2012-07-03 07:08
Итак, мой вопрос-
1) Во-первых, мы загружаем данные в HDFS, а затем через Hive я запрашиваю их, чтобы вернуть результат? Верно?
2) Во-вторых, когда вы смотрите на указанный выше путь и другие вещи, единственное, что меня смущает, это то, что когда я буду запрашивать с помощью Hive, я буду получать данные со всех трех путей выше? или самый последний вверху?
Поскольку я новичок в этих вещах, у меня много проблем. Кто-нибудь может объяснить мне, откуда улей получает данные? И мы храним все данные в HDFS, а затем используем Hive или Pig для возврата данных из HDFS? И будет здорово, если кто-нибудь даст знания о Hadoop и Hive на высоком уровне.