Pertanyaan tentang topik tersebut 'rdd'

Kurangi daftar kata, hitung tupel hingga kunci agregat
Saya mencoba mengambil contoh jumlah kata Spark dan menggabungkan jumlah kata berdasarkan beberapa nilai lain (misalnya, kata dan jumlah menurut orang dengan orang "VI" atau "MO" dalam kasus di bawah) Saya memiliki rdd yang merupakan daftar tupel...
1473 dilihat
schedule 15.01.2024

Kapan blok Spark RDD dibuat dan dihancurkan/dihapus?
Ada kolom bernama RDD blok di Spark UI di tab pelaksana. Salah satu pengamatan yang dilakukan adalah jumlah RDD blok terus meningkat untuk tugas streaming tertentu yang mana pesan dialirkan dari Kafka. Pelaksana tertentu dihapus secara...
1680 dilihat
schedule 03.12.2023

Mengekstraksi tahun dari Tanggal dalam kerangka data Pyspark
Saya memiliki bingkai data Pyspark yang berisi kolom tanggal "Tanggal Dilaporkan" (tipe: string). Saya ingin menghitung kolom lain setelah mengekstraksi tahun dari tanggal. Saya bisa menghitungnya jika saya menggunakan kolom tanggal string....
8155 dilihat
schedule 16.12.2023

nilai kunci maksimum dalam operasi berbasis rdd di pyspark
Saya baru mengenal operasi berbasis rdd. Saya mencoba memahami nilai kunci maksimal. Saya memiliki rdd seperti ini: RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)]) Saya...
21 dilihat
schedule 08.12.2023