Penyimpanan Blob Data Lake

Saya setelah sedikit memahami, saya tidak terjebak pada apa pun tetapi saya mencoba memahami sesuatu dengan lebih baik.

Saat memuat gudang data, mengapa selalu disarankan agar kita memuat data ke penyimpanan blob atau data lake terlebih dahulu? Saya memahami bahwa mengambil data dari sana sangatlah cepat, namun menurut pengalaman saya, ada beberapa kendala. Yang pertama adalah adanya batasan ukuran file dan jika Anda memuat terlalu banyak data ke dalam 1 file seperti yang saya lihat terjadi, hal itu menyebabkan kesalahan pemuatan sehingga kita harus mengalihkan pemuatan ke tambahan. Ini membawa saya ke masalah kedua saya, saya selalu berpikir tujuan memuat ke penyimpanan blob adalah membuang semua data di sana sehingga Anda dapat mengaksesnya di masa depan tanpa membebani sistem front-end, jika saya tidak dapat melakukan itu karena dari batas file lalu apa gunanya menggunakan penyimpanan blob, sebaiknya kita memuat data langsung ke tabel pementasan. Sepertinya ini adalah langkah yang tidak perlu bagi saya ketika saya pernah menjalankan gudang data di masa lalu tanpa melibatkan bagian ini dan bagi saya mereka telah bekerja lebih baik.

Bagaimanapun pemahaman saya tentang bagian ini tidak sebaik yang saya inginkan, dan saya telah mencoba mencari artikel yang menjawab pertanyaan-pertanyaan spesifik ini tetapi tidak ada yang benar-benar menjelaskan konsep tersebut kepada saya dengan benar. Bantuan atau tautan apa pun ke artikel bagus yang dapat saya baca akan sangat saya hargai.


person Glyn Thomas    schedule 02.07.2020    source sumber


Jawaban (1)


Salah satu alasan untuk menempatkan data di blob atau data lake adalah agar beberapa pembaca paralel dapat digunakan pada data secara bersamaan. Tujuannya adalah untuk membaca data dalam waktu yang wajar. Tidak semua sumber data mendukung jenis operasi baca seperti itu. Mengingat ukuran file Anda, satu pembaca akan memakan waktu lama.

Salah satu contohnya adalah SFTP. Tidak semua server SFTP mendukung pembacaan offset. Beberapa mungkin memiliki batasan lebih lanjut pada koneksi bersamaan. Memindahkan data terlebih dahulu ke layanan Azure memberikan serangkaian kemampuan/batasan yang diketahui.

Dalam kasus Anda, menurut saya yang Anda perlukan adalah mempartisi file, seperti yang mungkin dilakukan HDFS. Jika saya mengetahui sumber data yang Anda gunakan, saya dapat memberikan saran lebih lanjut.

person MartinJaffer-MSFT    schedule 13.07.2020
comment
Dalam hal ini pabrik data memuat dari db server sql ke penyimpanan blob lalu ke gudang data Azure Synapse. Ini adalah konversi di tengah yang saya tidak mengerti, mengapa memuatnya ke penyimpanan blob ketika Anda bisa membuangnya langsung ke gudang db. Saya memahami kasus penggunaan untuk data tidak terstruktur. - person Glyn Thomas; 16.07.2020