พื้นที่เก็บข้อมูล Data Lake Blob

หลังจากทำความเข้าใจมาบ้างแล้ว ฉันไม่ได้ติดอยู่กับสิ่งใดเลย แต่ฉันพยายามเข้าใจบางสิ่งให้ดีขึ้น

เมื่อโหลดคลังข้อมูล เหตุใดจึงแนะนำให้เราโหลดข้อมูลลงในพื้นที่จัดเก็บ Blob หรือ Data Lake ก่อนเสมอ ฉันเข้าใจว่าการดึงข้อมูลจากที่นั่นทำได้เร็วมาก แต่จากประสบการณ์ของฉัน มีข้อผิดพลาดอยู่สองสามประการ อย่างแรกคือมีการจำกัดขนาดไฟล์ และหากคุณโหลดข้อมูลมากเกินไปลงใน 1 ไฟล์อย่างที่ผมเคยเจอมา มันทำให้การโหลดเกิดข้อผิดพลาด ซึ่งจุดนี้เราต้องเปลี่ยนการโหลดเป็นแบบเพิ่มหน่วย สิ่งนี้นำฉันไปสู่ประเด็นที่สองของฉัน ฉันคิดเสมอว่าจุดโหลดลงในที่เก็บข้อมูล Blob คือการดึงข้อมูลทั้งหมดไว้ในนั้นเพื่อให้คุณสามารถเข้าถึงได้ในอนาคตโดยไม่ต้องเน้นระบบส่วนหน้า หากฉันทำอย่างนั้นไม่ได้เพราะ ขีดจำกัดของไฟล์ แล้วอะไรคือจุดประสงค์ของการใช้ที่เก็บข้อมูล Blob เราอาจโหลดข้อมูลลงในตารางการแสดงโดยตรงเช่นกัน มันดูเหมือนเป็นขั้นตอนที่ไม่จำเป็นสำหรับฉันเมื่อฉันเคยใช้งานคลังข้อมูลในอดีตโดยไม่มีส่วนนี้เกี่ยวข้อง และสำหรับฉันคลังข้อมูลทำงานได้ดีขึ้น

อย่างไรก็ตาม ความเข้าใจในส่วนนี้ของฉันยังไม่ดีเท่าที่ฉันต้องการ และฉันพยายามค้นหาบทความที่ตอบคำถามเฉพาะเหล่านี้ แต่ไม่มีผู้ใดอธิบายแนวคิดนี้ให้ฉันได้อย่างถูกต้องจริงๆ ความช่วยเหลือหรือลิงก์ไปยังบทความดีๆ ที่ฉันสามารถอ่านได้จะได้รับการชื่นชมมาก


person Glyn Thomas    schedule 02.07.2020    source แหล่งที่มา


คำตอบ (1)


เหตุผลประการหนึ่งในการวางข้อมูลใน Blob หรือ Data Lake คือเพื่อให้สามารถใช้ตัวอ่านแบบขนานหลายตัวกับข้อมูลได้ในเวลาเดียวกัน เป้าหมายคือการอ่านข้อมูลในเวลาที่เหมาะสม แหล่งข้อมูลบางแห่งไม่สนับสนุนการดำเนินการอ่านประเภทนี้ เมื่อพิจารณาถึงขนาดไฟล์ของคุณ โปรแกรมอ่านเดี่ยวอาจใช้เวลานาน

ตัวอย่างหนึ่งอาจเป็น SFTP เซิร์ฟเวอร์ SFTP บางตัวไม่รองรับการอ่านออฟเซ็ต บางส่วนอาจมีข้อจำกัดเพิ่มเติมเกี่ยวกับการเชื่อมต่อพร้อมกัน การย้ายข้อมูลไปยังบริการ Azure ก่อนทำให้เกิดชุดความสามารถ/ข้อจำกัดที่ทราบ

ในกรณีของคุณ ฉันคิดว่าสิ่งที่คุณต้องการคือการแบ่งพาร์ติชันไฟล์ เช่นเดียวกับที่ HDFS อาจทำ หากฉันรู้ว่าคุณกำลังใช้แหล่งข้อมูลใด ฉันอาจมีข้อเสนอแนะเพิ่มเติม

person MartinJaffer-MSFT    schedule 13.07.2020
comment
ในกรณีนี้ โรงงานข้อมูลกำลังโหลดจากฐานข้อมูลเซิร์ฟเวอร์ sql ไปยังที่เก็บข้อมูล blob จากนั้นเข้าสู่คลังข้อมูล azure synapse ฉันไม่เข้าใจว่ามันเป็นการแปลงตรงกลาง ทำไมโหลดมันลงในที่เก็บข้อมูลหยด ในเมื่อคุณสามารถโยนมันลงในฐานข้อมูลคลังสินค้าโดยตรง ฉันเข้าใจกรณีการใช้งานสำหรับข้อมูลที่ไม่มีโครงสร้าง - person Glyn Thomas; 16.07.2020