Saya mencoba mengambil contoh jumlah kata Spark dan menggabungkan jumlah kata berdasarkan beberapa nilai lain (misalnya, kata dan jumlah menurut orang dengan orang "VI" atau "MO" dalam kasus di bawah)
Saya memiliki rdd yang merupakan daftar tupel yang nilainya adalah daftar tupel:
from operator import add
reduced_tokens = tokenized.reduceByKey(add)
reduced_tokens.take(2)
Yang memberi saya:
[(u'VI', [(u'word1', 1), (u'word2', 1), (u'word3', 1)]),
(u'MO',
[(u'word4', 1),
(u'word4', 1),
(u'word5', 1),
(u'word8', 1),
(u'word10', 1),
(u'word1', 1),
(u'word4', 1),
(u'word6', 1),
(u'word9', 1),
...
)]
Saya ingin sesuatu seperti:
[
('VI',
[(u'word1', 1), (u'word2', 1), (u'word3', 1)],
('MO',
[(u'word4', 58), (u'word8', 2), (u'word9', 23) ...)
]
Mirip dengan contoh jumlah kata di sini, Saya ingin dapat menyaring kata-kata dengan jumlah di bawah ambang batas tertentu untuk beberapa orang. Terima kasih!