ในบทความนี้ เราจะอธิบายวิธีปรับใช้ไปป์ไลน์แบบแบตช์ที่สร้างขึ้นในเครื่องกับ Google Dataflow ด้วยวิธีที่เรียบง่ายมาก

ในบทความก่อนหน้านี้ (ที่นี่) เราได้สำรวจวิธีเปลี่ยนไปป์ไลน์จากแบทช์เป็นการสตรีมโดยใช้บรรทัดเพิ่มเติมเพียงไม่กี่บรรทัด นี่แสดงให้เราเห็นถึงความเก่งกาจของการใช้ Apache Beam

ในบทความนี้ เราจะอธิบายวิธีปรับใช้ไปป์ไลน์แบบแบตช์ที่สร้างขึ้นในเครื่องกับ Google Dataflow ด้วยวิธีที่เรียบง่ายมาก มีวิธีอื่นในการปรับใช้ ซับซ้อนไม่มากก็น้อย ความซับซ้อนที่ขึ้นอยู่กับระดับความรู้ของคุณใน Python โดยเฉพาะ

มาเอามือทาแป้งกันไหม?

สร้างบัญชีบริการ

ไปที่ IAM และผู้ดูแลระบบ > บัญชีบริการ > + สร้าง > ตั้งชื่อ SA ของคุณ > สร้าง:

จากนั้นให้สิทธิ์ Dataflow Worker › คลิกเสร็จสิ้น

เมื่อสร้างแล้ว ให้ไปที่จุด 3 จุดทางด้านขวาของ SA ที่สร้างขึ้น แล้วคลิกสร้างคีย์ > เลือก JSON > สร้าง

พร้อม SA (สร้างบัญชีบริการแล้ว) และส่งออกแล้ว ควรอยู่ในโฟลเดอร์ดาวน์โหลดของคุณ! ต่อไปนี้เป็นรายละเอียดเพิ่มเติมเกี่ยวกับวิธีใช้ Python SDK และ Dataflow

ในสภาพแวดล้อมท้องถิ่นของคุณ

หากคุณใช้งาน Apache ใน Direct Runner เช่น ภายในเครื่อง แสดงว่าคุณได้ติดตั้งแพ็คเกจ Apache Beam ไว้แล้ว ตอนนี้ยังติดตั้งแพ็คเกจ Apache Beam SDK สำหรับ GCP ด้วยคำสั่งต่อไปนี้ผ่าน CMD หรือ:

pip ติดตั้ง apache-beam[gcp]

SDK นี้อนุญาตให้โค้ด Apache Beam ในพื้นที่ของคุณซึ่งทำงานกับ Direct Runner (คุ้มค่าที่จะค้นคว้าเกี่ยวกับรันเนอร์ที่เป็นไปได้ เช่น spark, flink…) ที่จะแปลงและ...