Максимальный размер шаблона Google Dataflow - 10 МБ

Я установил шаблон в потоке данных Google, и он работал нормально. После некоторой модификации добавления параллельной обработки на раздел размер шаблона стал намного больше. Я попытался запустить его, но ничего не вышло. У меня такая ошибка, как следующая

Template file 'gs://my-bucket/templates/my-template-name' was too large. Max size is 10485760 bytes.

Похоже, что у gcp есть ограничение на размер шаблона около 10 МБ. Есть ли способ увеличить лимит или сжать сгенерированный шаблон? Обновление, которое я сделал, - это в значительной степени создание раздела из коллекции pCollection. Затем каждый pCollection в этом pCollectionList запускает ту же структуру преобразования и записи файла. Без перегородки размер 1,5 мб. раздел на 4 раздела, он вырос до 6 мб. При переходе на 8 разделов выросло до 12 мб. Разве этим не ограничивается сложность конвейера?

Вот описание раздела. Процесс происхождения такой String option -> pCollection as input files -> TextIO -> sort -> write

После раздела вроде

String option -> pColletion as input files -> parition -> each partition does TextIO -> sort -> write

Перегородка посередине - единственное серьезное изменение. Почему из-за этого размер шаблона увеличился в несколько раз?


person Sam Tsai    schedule 23.06.2019    source источник


Ответы (1)


Это известная проблема для Dataflow. Если вы используете Beam SDK> = 2.9, вы можете добавить --experiments=upload_graph к команде, которую вы используете для создания шаблона. Это должно помочь вам создать шаблон меньшего размера. Однако я не уверен, что эта функция теперь полностью доступна для всех пользователей Dataflow, поскольку она только что была реализована. В противном случае его полная доступность может занять несколько недель.

person Yueyang Qiu    schedule 24.06.2019
comment
Огромное спасибо. Знаем ли мы, когда эта функция будет доступна или где мы можем увидеть ее объявление? - person Sam Tsai; 25.06.2019
comment
Не думаю, что по этому поводу будет анонс. Доступность этой функции будет зависеть от региона, в котором вы запускаете Dataflow. Вы можете попробовать это сейчас и посмотреть, работает ли это уже у вас. Я думаю, что на развертывание этой функции во всех регионах уйдет самое большее несколько недель. - person Yueyang Qiu; 25.06.2019