Saat ini saya mencoba menyimpan dan membaca informasi dari dask ke file parket. Tetapi ketika mencoba menyimpan kerangka data dengan dask "to_parquet" dan memuatnya lagi dengan "read_parquet" sepertinya informasi pembagiannya hilang.
>>df.divisions
(Timestamp('2014-10-01 17:25:17.928000'), Timestamp('2014-10-01 17:27:18.000860'), Timestamp('2014-10-01 17:29:19.000860'), Timestamp('2014-10-01 17:31:19.000860'), Timestamp('2014-10-01 17:33:20.000860'), Timestamp('2014-10-01 17:35:20.763000'), Timestamp('2014-10-01 17:36:12.992860'))
>>df.to_parquet(folder)
>>del df
>>df = dask.dataframe.read_parquet(folder)
>>df.divisions
(None, None, None, None, None, None, None)
Apakah ini memang disengaja? Solusi saya saat ini adalah mengatur indeks lagi setelah memuat tetapi itu membutuhkan banyak waktu.
>> df = dask.dataframe.read_parquet(folder,index=False).set_index('timestamp', sorted=True)
>> df.divisions
(Timestamp('2014-10-01 17:25:17.928000'), Timestamp('2014-10-01 17:27:18.000860'), Timestamp('2014-10-01 17:29:19.000860'), Timestamp('2014-10-01 17:31:19.000860'), Timestamp('2014-10-01 17:33:20.000860'), Timestamp('2014-10-01 17:35:20.763000'), Timestamp('2014-10-01 17:36:12.992860'))
Atau apakah saya kehilangan beberapa opsi saat menyimpan dan memuat?