Saat menjalankan potongan kode PySpark berikut:
nlp = NLPFunctions()
def parse_ingredients(ingredient_lines):
parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0]
return list(chain.from_iterable(parsed_ingredients))
udf_parse_ingredients = UserDefinedFunction(parse_ingredients, ArrayType(StringType()))
Saya mendapatkan kesalahan berikut: _pickle.PicklingError: Could not serialize object: TypeError: can't pickle _thread.lock objects
Saya membayangkan ini karena PySpark tidak dapat membuat serial kelas khusus ini. Tapi bagaimana saya bisa menghindari overhead saat membuat instance objek mahal ini pada setiap menjalankan fungsi parse_ingredients_line
?