Saya baru mengenal operasi berbasis rdd. Saya mencoba memahami nilai kunci maksimal. Saya memiliki rdd seperti ini:
RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)])
Saya harus menemukan maksimal elemen ke-2 berdasarkan kunci. Saya ingin melihat hasilnya seperti ini;
("A", 7, 5)
("B", 10, 6)
("C", 6, 10)
Saya mencoba newrdd = RDD.reduceByKey(lambda x: max(x[2]))
. Ini menghasilkan beberapa kesalahan.