Apa perbedaan antara data lake dengan HDFS atau S3 di AWS?

Saya perlu membangun data lake di AWS, tetapi saya tidak tahu apa sebenarnya perbedaan S3 dari HDFS. Saya menemukan beberapa jawaban di Internet tetapi saya masih belum memahami perbedaan sebenarnya.

Saya juga perlu tahu apakah seseorang memiliki arsitektur data lake HDFS dan S3 di AWS.


person Aziza Sbai El Idrissi    schedule 11.07.2019    source sumber
comment
Apa kasus penggunaan khusus Anda? Apakah Anda hanya menggunakan satu cluster Hadoop? Bagaimana cara data masuk & keluar? Jangan ragu untuk mengedit pertanyaan Anda untuk menambahkan lebih banyak detail, untuk jawaban yang lebih detail.   -  person John Rotenstein    schedule 12.07.2019
comment
Saya perlu mengimplementasikan Informatica BDM di AWS dan membangun data lake   -  person Aziza Sbai El Idrissi    schedule 12.07.2019


Jawaban (1)


HDFS hanya dapat diakses oleh cluster Hadoop di mana ia berada. Jika cluster mati atau dihentikan, data di HDFS akan hilang.

Data di Amazon S3:

  • Tetap tersedia setiap saat (tidak dapat 'dimatikan')
  • Dapat diakses oleh beberapa cluster
  • Dapat diakses oleh layanan AWS lainnya, seperti Amazon Athena (yaitu 'Presto sebagai layanan', jadi Anda bahkan mungkin tidak memerlukan klaster Hadoop)
  • Memiliki beberapa kelas penyimpanan, seperti menyimpan data yang jarang diakses dengan biaya lebih rendah
  • Tidak memiliki batas penyimpanan (sementara HDFS terbatas pada penyimpanan yang tersedia di cluster Hadoop)
person John Rotenstein    schedule 12.07.2019