Data Lake กับ HDFS หรือ S3 ใน AWS แตกต่างกันอย่างไร

ฉันต้องสร้าง Data Lake บน AWS แต่ฉันไม่รู้ว่า S3 แตกต่างจาก HDFS อย่างไร ฉันพบคำตอบบางอย่างในอินเทอร์เน็ต แต่ฉันยังไม่เข้าใจถึงความแตกต่างที่แท้จริง

ฉันยังต้องรู้ด้วยว่ามีใครมีสถาปัตยกรรม Data Lake ของ HDFS และ S3 ใน AWS หรือไม่


person Aziza Sbai El Idrissi    schedule 11.07.2019    source แหล่งที่มา
comment
กรณีการใช้งานเฉพาะของคุณคืออะไร? คุณใช้คลัสเตอร์ Hadoop เพียงคลัสเตอร์เดียวหรือไม่ ข้อมูลเข้าและออกได้อย่างไร? คุณสามารถแก้ไขคำถามของคุณเพื่อเพิ่มรายละเอียดเพื่อรับคำตอบที่ละเอียดยิ่งขึ้นได้ตามใจชอบ   -  person John Rotenstein    schedule 12.07.2019
comment
ฉันจำเป็นต้องใช้ Informatica BDM ใน AWS และสร้าง Data Lake   -  person Aziza Sbai El Idrissi    schedule 12.07.2019


คำตอบ (1)


HDFS สามารถเข้าถึงได้โดยคลัสเตอร์ Hadoop ที่มีอยู่เท่านั้น หากคลัสเตอร์ปิดหรือถูกยกเลิก ข้อมูลใน HDFS จะหายไป

ข้อมูลใน Amazon S3:

  • ยังคงใช้งานได้ตลอดเวลา (ไม่สามารถ 'ปิด' ได้)
  • สามารถเข้าถึงได้โดย หลายคลัสเตอร์
  • สามารถเข้าถึงบริการอื่นๆ ของ AWS ได้ เช่น Amazon Athena (ซึ่งเรียกว่า 'Presto as a service' ดังนั้นคุณอาจไม่จำเป็นต้องใช้คลัสเตอร์ Hadoop ด้วยซ้ำ)
  • มีพื้นที่เก็บข้อมูลหลายคลาส เช่น การจัดเก็บข้อมูลที่มีการเข้าถึงไม่บ่อยด้วยต้นทุนที่ต่ำกว่า
  • ไม่มีขีดจำกัดพื้นที่เก็บข้อมูล (ในขณะที่ HDFS ถูกจำกัดอยู่ที่พื้นที่เก็บข้อมูลที่มีอยู่ในคลัสเตอร์ Hadoop)
person John Rotenstein    schedule 12.07.2019