Batas ukuran Templat Google Dataflow sebesar 10Mb

Saya menyiapkan template di Google dataflow dan berfungsi dengan baik. Setelah beberapa modifikasi dengan menambahkan pemrosesan paralel pada partisi, ukuran template menjadi jauh lebih besar. Saya mencoba menjalankannya dan gagal. Saya mendapat beberapa kesalahan seperti berikut

Template file 'gs://my-bucket/templates/my-template-name' was too large. Max size is 10485760 bytes.

Sepertinya gcp memiliki batasan ukuran template sekitar 10 MB. Apakah ada cara untuk menambah batas atau mengompresi template yang dihasilkan? Pembaruan yang saya lakukan cukup banyak membuat partisi dari pCollection. Kemudian setiap pCollection di pCollectionList ini memulai struktur transformasi dan penulisan file yang sama. Tanpa partisi, ukurannya 1,5 mb. partisi menjadi 4 parisi, bertambah menjadi 6 mb. Saat menggunakan 8 partisi, ukurannya bertambah menjadi 12 mb. Bukankah kompleksitas saluran pipa ini terbatas?

Berikut ini beberapa penjelasan mengenai partisi tersebut. Proses asal seperti ini String option -> pCollection as input files -> TextIO -> sort -> write

Setelah partisi seperti

String option -> pColletion as input files -> parition -> each partition does TextIO -> sort -> write

Partisi di tengah adalah satu-satunya perubahan besar. Mengapa hal ini membuat ukuran template bertambah beberapa kali lebih besar?


person Sam Tsai    schedule 23.06.2019    source sumber


Jawaban (1)


Ini adalah masalah umum untuk Dataflow. Jika Anda menggunakan Beam SDK >= 2.9, Anda dapat menambahkan --experiments=upload_graph ke perintah yang Anda gunakan untuk membuat template. Ini akan membantu Anda menghasilkan template yang lebih kecil. Namun, saya tidak yakin apakah fitur ini tersedia sepenuhnya untuk semua pengguna Dataflow saat ini, karena baru saja diterapkan. Jika tidak, mungkin diperlukan waktu beberapa minggu agar aplikasi tersebut tersedia sepenuhnya.

person Yueyang Qiu    schedule 24.06.2019
comment
Terima kasih banyak. Apakah kami mengetahui kapan fitur ini akan tersedia atau di mana kami dapat melihat pengumumannya? - person Sam Tsai; 25.06.2019
comment
Saya rasa tidak akan ada pengumuman untuk itu. Tersedianya fitur ini akan bergantung pada wilayah tempat Anda menjalankan Dataflow. Anda dapat mencobanya sekarang dan melihat apakah ini sudah berhasil untuk Anda. Menurut saya, dibutuhkan waktu paling lama beberapa minggu agar fitur ini dapat diluncurkan ke semua wilayah. - person Yueyang Qiu; 25.06.2019