Dalam artikel ini, kami akan menjelaskan cara menerapkan pipeline batch, yang dibuat secara lokal, ke Google Dataflow, dengan cara yang sangat sederhana.

Pada artikel sebelumnya (“di sini”), kita mempelajari cara mengubah pipeline dari batch ke streaming hanya dengan beberapa baris tambahan. Ini menunjukkan kepada kita keserbagunaan menggunakan Apache Beam.

Dalam artikel ini, kami akan menjelaskan cara menerapkan pipeline batch, yang dibuat secara lokal, ke Google Dataflow, dengan cara yang sangat sederhana. Ada metode lain untuk diterapkan, yang kurang lebih rumit. Kompleksitas itu tergantung pada tingkat pengetahuan Anda tentang python, khususnya.

Ayo masukkan tanganmu ke dalam adonan?

Buat Akun Layanan

Buka IAM & Admin › Akun Layanan › + Buat › beri nama SA Anda › Buat:

Lalu berikan izin Dataflow Worker ›Klik Selesai

Setelah dibuat, arahkan ke 3 titik di sebelah kanan SA yang dibuat, dan klik Buat Kunci › Pilih JSON › Buat

Siap, SA (Akun Layanan Dibuat) dan diekspor, itu harus ada di folder Unduhan Anda! Berikut beberapa detail lebih lanjut tentang cara menggunakan Python SDK dan Dataflow

Di Lingkungan Lokal Anda

Jika Anda menjalankan Apache di Direct Runner, yaitu secara lokal, Anda sudah menginstal paket Apache Beam. Sekarang instal juga paket Apache Beam SDK untuk GCP dengan perintah berikut melalui CMD atau :

pip instal apache-beam[gcp]

SDK ini memungkinkan kode Apache Beam lokal Anda, yang dijalankan dengan Direct Runner (ada baiknya meneliti kemungkinan pelari, seperti spark, flink…), untuk dikonversi dan…