Я установил шаблон в потоке данных Google, и он работал нормально. После некоторой модификации добавления параллельной обработки на раздел размер шаблона стал намного больше. Я попытался запустить его, но ничего не вышло. У меня такая ошибка, как следующая
Template file 'gs://my-bucket/templates/my-template-name' was too large. Max size is 10485760 bytes.
Похоже, что у gcp есть ограничение на размер шаблона около 10 МБ. Есть ли способ увеличить лимит или сжать сгенерированный шаблон? Обновление, которое я сделал, - это в значительной степени создание раздела из коллекции pCollection. Затем каждый pCollection в этом pCollectionList запускает ту же структуру преобразования и записи файла. Без перегородки размер 1,5 мб. раздел на 4 раздела, он вырос до 6 мб. При переходе на 8 разделов выросло до 12 мб. Разве этим не ограничивается сложность конвейера?
Вот описание раздела. Процесс происхождения такой String option -> pCollection as input files -> TextIO -> sort -> write
После раздела вроде
String option -> pColletion as input files -> parition -> each partition does TextIO -> sort -> write
Перегородка посередине - единственное серьезное изменение. Почему из-за этого размер шаблона увеличился в несколько раз?