Saya memiliki kerangka data DF1 yang terlihat seperti ini:
+-------+------+
|user_id|meta |
+-------+------+
| 1| null|
| 11| null|
| 15| null|
+-------+------+
Skema:
root
|-- user_id: string (nullable = true)
|-- meta: string (nullable = true)
dan saya memiliki kerangka data DF2 lain yang terlihat seperti ini
+-------+------------------------------------+
|user_id| Vectorz |
+-------+------------------------------------+
| 10| (2,[1],[1.0])|
| 12| (2,[1],[1.0])|
| 13| (2,[0],[1.0])|
| 14| (2,[1],[1.0])|
---------------------------------------------
Skema adalah:
[user_id: string, Vectorz: vector]
Saya ingin memasukkan semua user_ids dari DF1 ke DF2, tetapi membuat vektor renggang kosong untuk mereka karena kolom "meta" semuanya NULL.
Jadi, saya ingin DF2 akhirnya menjadi:
+-------+------------------------------------+
|user_id| Vectorz |
+-------+------------------------------------+
| 1| (,[],[])|
| 10| (2,[1],[1.0])|
| 11| (,[],[])|
| 12| (2,[1],[1.0])|
| 13| (2,[0],[1.0])|
| 14| (2,[1],[1.0])|
| 15| (,[],[])|
---------------------------------------------
Adakah yang bisa membantu?
Saya baru mengenal PySpark. Jadi, maaf jika saya kurang mendapat informasi.
Vectorz
ke DF1, membuangmeta
lalu menggabungkan kedua df tersebut. - person moon   schedule 20.05.2020