Saya sudah mulai bekerja dengan Hadoop baru-baru ini. Ada tabel bernama Checkout yang saya akses melalui Hive. Dan di bawah ini adalah jalur masuknya data ke HDFS dan info lainnya. Lalu informasi apa yang bisa saya peroleh jika saya harus membaca tiga baris di bawah ini?
Path Size Record Count Date Loaded
/sys/edw/dw_checkout_trans/snapshot/2012/07/04/00 1.13 TB 9,294,245,800 2012-07-05 07:26
/sys/edw/dw_checkout_trans/snapshot/2012/07/03/00 1.13 TB 9,290,477,963 2012-07-04 09:37
/sys/edw/dw_checkout_trans/snapshot/2012/07/02/00 1.12 TB 9,286,199,847 2012-07-03 07:08
Jadi pertanyaan saya adalah-
1) Pertama, Kami memuat data ke HDFS dan kemudian melalui Hive saya menanyakannya untuk mendapatkan hasilnya kembali? Benar?
2) Kedua, Saat Anda melihat jalur di atas dan hal lainnya, satu-satunya hal yang membuat saya bingung adalah, saat saya melakukan kueri menggunakan Hive maka saya akan mendapatkan data dari ketiga jalur di atas? atau yang terbaru di atas?
Karena saya baru dalam hal ini, maka saya mengalami banyak masalah. Adakah yang bisa menjelaskan kepada saya bahwa sarangnya mendapatkan data dari mana? Dan kami menyimpan semua data di HDFS dan kemudian kami menggunakan Hive atau Pig untuk mendapatkan kembali data dari HDFS? Dan akan sangat bagus jika ada yang memberikan pengetahuan tingkat tinggi tentang Hadoop dan Hive.