ฉันเพิ่งเริ่มทำงานกับ Hadoop เมื่อเร็วๆ นี้ มีตารางชื่อ Checkout ที่ฉันเข้าถึงผ่าน Hive และด้านล่างนี้คือเส้นทางที่ข้อมูลไปยัง HDFS และข้อมูลอื่นๆ แล้วฉันจะได้ข้อมูลอะไรหากต้องอ่านสามบรรทัดด้านล่าง?
Path Size Record Count Date Loaded
/sys/edw/dw_checkout_trans/snapshot/2012/07/04/00 1.13 TB 9,294,245,800 2012-07-05 07:26
/sys/edw/dw_checkout_trans/snapshot/2012/07/03/00 1.13 TB 9,290,477,963 2012-07-04 09:37
/sys/edw/dw_checkout_trans/snapshot/2012/07/02/00 1.12 TB 9,286,199,847 2012-07-03 07:08
ดังนั้นคำถามของฉันคือ-
1) ประการแรก เรากำลังโหลดข้อมูลไปยัง HDFS จากนั้นผ่าน Hive ฉันกำลังสอบถามเพื่อให้ได้ผลลัพธ์กลับมาหรือไม่ ใช่ไหม?
2) ประการที่สอง เมื่อคุณดูเส้นทางด้านบนและสิ่งอื่นๆ สิ่งเดียวที่ฉันสับสนคือ เมื่อฉันจะสืบค้นโดยใช้ Hive ฉันจะได้รับข้อมูลจากทั้งสามเส้นทางข้างต้นหรือไม่ หรืออันล่าสุดที่ด้านบน?
เนื่องจากฉันยังใหม่กับสิ่งเหล่านี้ ดังนั้นฉันจึงมีปัญหามากมาย ใครสามารถอธิบายฉันได้ว่ารังได้รับข้อมูลจากที่ไหน? และเราเก็บข้อมูลทั้งหมดไว้ใน HDFS จากนั้นเราใช้ Hive หรือ Pig เพื่อรับข้อมูลกลับจาก HDFS? และจะดีมากถ้ามีคนให้ความรู้ระดับสูงเกี่ยวกับ Hadoop และ Hive