Максимальный размер шаблона Google Dataflow - 10 МБ

Я установил шаблон в потоке данных Google, и он работал нормально. После некоторой модификации добавления параллельной обработки на раздел размер шаблона стал намного больше. Я попытался запустить его, но ничего не вышло. У меня такая ошибка, как следующая

Template file 'gs://my-bucket/templates/my-template-name' was too large. Max size is 10485760 bytes.

Похоже, что у gcp есть ограничение на размер шаблона около 10 МБ. Есть ли способ увеличить лимит или сжать сгенерированный шаблон? Обновление, которое я сделал, - это в значительной степени создание раздела из коллекции pCollection. Затем каждый pCollection в этом pCollectionList запускает ту же структуру преобразования и записи файла. Без перегородки размер 1,5 мб. раздел на 4 раздела, он вырос до 6 мб. При переходе на 8 разделов выросло до 12 мб. Разве этим не ограничивается сложность конвейера?

Вот описание раздела. Процесс происхождения такой String option -> pCollection as input files -> TextIO -> sort -> write

После раздела вроде

String option -> pColletion as input files -> parition -> each partition does TextIO -> sort -> write

Перегородка посередине - единственное серьезное изменение. Почему из-за этого размер шаблона увеличился в несколько раз?

apache-beam google-cloud-platform google-cloud-dataflow

Sam Tsai 23.06.2019 источник

Ответы (1)

arrow_upward
2
arrow_downward

Это известная проблема для Dataflow. Если вы используете Beam SDK> = 2.9, вы можете добавить --experiments=upload_graph к команде, которую вы используете для создания шаблона. Это должно помочь вам создать шаблон меньшего размера. Однако я не уверен, что эта функция теперь полностью доступна для всех пользователей Dataflow, поскольку она только что была реализована. В противном случае его полная доступность может занять несколько недель.

Yueyang Qiu 24.06.2019

comment

Огромное спасибо. Знаем ли мы, когда эта функция будет доступна или где мы можем увидеть ее объявление? - Sam Tsai; 25.06.2019

comment

Не думаю, что по этому поводу будет анонс. Доступность этой функции будет зависеть от региона, в котором вы запускаете Dataflow. Вы можете попробовать это сейчас и посмотреть, работает ли это уже у вас. Я думаю, что на развертывание этой функции во всех регионах уйдет самое большее несколько недель. - Yueyang Qiu; 25.06.2019

Максимальный размер шаблона Google Dataflow - 10 МБ

Ответы (1)

Вопросы по теме