ฉันมี dataframe DF1 ที่มีลักษณะดังนี้:
+-------+------+
|user_id|meta |
+-------+------+
| 1| null|
| 11| null|
| 15| null|
+-------+------+
สคีมา:
root
|-- user_id: string (nullable = true)
|-- meta: string (nullable = true)
และฉันมี dataframe DF2 อีกอันที่มีลักษณะเช่นนี้
+-------+------------------------------------+
|user_id| Vectorz |
+-------+------------------------------------+
| 10| (2,[1],[1.0])|
| 12| (2,[1],[1.0])|
| 13| (2,[0],[1.0])|
| 14| (2,[1],[1.0])|
---------------------------------------------
สคีมาคือ:
[user_id: string, Vectorz: vector]
ฉันต้องการฉีด user_ids ทั้งหมดจาก DF1 ลงใน DF2 แต่สร้างเวกเตอร์กระจัดกระจายว่างสำหรับพวกเขาเนื่องจากคอลัมน์ "meta" ของพวกเขาเป็น NULL ทั้งหมด
ในที่สุดฉันก็ต้องการให้ DF2 เป็น:
+-------+------------------------------------+
|user_id| Vectorz |
+-------+------------------------------------+
| 1| (,[],[])|
| 10| (2,[1],[1.0])|
| 11| (,[],[])|
| 12| (2,[1],[1.0])|
| 13| (2,[0],[1.0])|
| 14| (2,[1],[1.0])|
| 15| (,[],[])|
---------------------------------------------
ใครสามารถช่วยได้บ้าง?
ฉันยังใหม่กับ PySpark ดังนั้นขออภัยหากฉันฟังดูไม่ค่อยมีข้อมูลเพียงพอ
Vectorz
ใน DF1 วางmeta
จากนั้นรวม dfs ทั้งสองเข้าด้วยกัน - person moon   schedule 20.05.2020