Saya menyiapkan template di Google dataflow dan berfungsi dengan baik. Setelah beberapa modifikasi dengan menambahkan pemrosesan paralel pada partisi, ukuran template menjadi jauh lebih besar. Saya mencoba menjalankannya dan gagal. Saya mendapat beberapa kesalahan seperti berikut
Template file 'gs://my-bucket/templates/my-template-name' was too large. Max size is 10485760 bytes.
Sepertinya gcp memiliki batasan ukuran template sekitar 10 MB. Apakah ada cara untuk menambah batas atau mengompresi template yang dihasilkan? Pembaruan yang saya lakukan cukup banyak membuat partisi dari pCollection. Kemudian setiap pCollection di pCollectionList ini memulai struktur transformasi dan penulisan file yang sama. Tanpa partisi, ukurannya 1,5 mb. partisi menjadi 4 parisi, bertambah menjadi 6 mb. Saat menggunakan 8 partisi, ukurannya bertambah menjadi 12 mb. Bukankah kompleksitas saluran pipa ini terbatas?
Berikut ini beberapa penjelasan mengenai partisi tersebut. Proses asal seperti ini String option -> pCollection as input files -> TextIO -> sort -> write
Setelah partisi seperti
String option -> pColletion as input files -> parition -> each partition does TextIO -> sort -> write
Partisi di tengah adalah satu-satunya perubahan besar. Mengapa hal ini membuat ukuran template bertambah beberapa kali lebih besar?