Hal dasar tentang Hadoop dan Hive

Saya sudah mulai bekerja dengan Hadoop baru-baru ini. Ada tabel bernama Checkout yang saya akses melalui Hive. Dan di bawah ini adalah jalur masuknya data ke HDFS dan info lainnya. Lalu informasi apa yang bisa saya peroleh jika saya harus membaca tiga baris di bawah ini?

          Path                                      Size           Record Count      Date Loaded
/sys/edw/dw_checkout_trans/snapshot/2012/07/04/00   1.13 TB       9,294,245,800      2012-07-05 07:26
/sys/edw/dw_checkout_trans/snapshot/2012/07/03/00   1.13 TB       9,290,477,963      2012-07-04 09:37
/sys/edw/dw_checkout_trans/snapshot/2012/07/02/00   1.12 TB       9,286,199,847      2012-07-03 07:08

Jadi pertanyaan saya adalah-

1) Pertama, Kami memuat data ke HDFS dan kemudian melalui Hive saya menanyakannya untuk mendapatkan hasilnya kembali? Benar?

2) Kedua, Saat Anda melihat jalur di atas dan hal lainnya, satu-satunya hal yang membuat saya bingung adalah, saat saya melakukan kueri menggunakan Hive maka saya akan mendapatkan data dari ketiga jalur di atas? atau yang terbaru di atas?

Karena saya baru dalam hal ini, maka saya mengalami banyak masalah. Adakah yang bisa menjelaskan kepada saya bahwa sarangnya mendapatkan data dari mana? Dan kami menyimpan semua data di HDFS dan kemudian kami menggunakan Hive atau Pig untuk mendapatkan kembali data dari HDFS? Dan akan sangat bagus jika ada yang memberikan pengetahuan tingkat tinggi tentang Hadoop dan Hive.


person arsenal    schedule 06.07.2012    source sumber


Jawaban (1)


Saya rasa Anda perlu mengetahui perbedaan antara tabel asli Hive dan tabel eksternal Hive.
Tabel asli Hive berarti Anda memuat data ke dalam Hive, dan ini memperhatikan cara data disimpan di HDFS. Kami biasanya tidak peduli apa struktur direktori dalam kasus ini.
Hive Tabel eksternal berarti kita meletakkan data di beberapa direktori (jika kita lupa tentang partisi untuk saat ini) dan memberitahu ke Hive - itu adalah data tabel. Tolong perlakukan seperti itu. Dan Hive memungkinkan kita untuk menanyakannya, bergabung dengan tabel eksternal atau reguler lainnya. Dan menjadi tanggung jawab kita untuk menambah data, menghapusnya, dll

person David Gruzman    schedule 06.07.2012