У меня есть фрейм данных DF1, который выглядит так:
+-------+------+
|user_id|meta |
+-------+------+
| 1| null|
| 11| null|
| 15| null|
+-------+------+
Схема:
root
|-- user_id: string (nullable = true)
|-- meta: string (nullable = true)
и у меня есть еще один фрейм данных DF2, который выглядит так
+-------+------------------------------------+
|user_id| Vectorz |
+-------+------------------------------------+
| 10| (2,[1],[1.0])|
| 12| (2,[1],[1.0])|
| 13| (2,[0],[1.0])|
| 14| (2,[1],[1.0])|
---------------------------------------------
Схема:
[user_id: string, Vectorz: vector]
Я хочу вставить все user_ids из DF1 в DF2, но создать для них пустые разреженные векторы, поскольку их столбец «meta» - это все NULL.
Итак, я хочу, чтобы DF2 наконец был:
+-------+------------------------------------+
|user_id| Vectorz |
+-------+------------------------------------+
| 1| (,[],[])|
| 10| (2,[1],[1.0])|
| 11| (,[],[])|
| 12| (2,[1],[1.0])|
| 13| (2,[0],[1.0])|
| 14| (2,[1],[1.0])|
| 15| (,[],[])|
---------------------------------------------
Может кто-нибудь помочь?
Я новичок в PySpark. Так что извините, если я недостаточно информирован.
Vectorz
в DF1, отброситьmeta
, а затем объединить оба dfs вместе. - person moon   schedule 20.05.2020