Kapan blok Spark RDD dibuat dan dihancurkan/dihapus?

Ada kolom bernama RDD blok di Spark UI di tab pelaksana. Salah satu pengamatan yang dilakukan adalah jumlah RDD blok terus meningkat untuk tugas streaming tertentu yang mana pesan dialirkan dari Kafka.

Pelaksana tertentu dihapus secara otomatis dan aplikasi melambat setelah dijalankan lama dengan sejumlah besar RDD blok. DStreams dan RDDs tidak disimpan secara manual di mana pun.

Akan sangat membantu jika seseorang menjelaskan kapan blok ini dibuat dan atas dasar apa blok tersebut dihapus (apakah ada parameter yang perlu diubah?).

apache-spark spark-streaming rdd

nitin angadi 12.04.2018 sumber

comment

Sepertinya kemungkinan duplikat dari ini: stackoverflow.com/questions/38067919/ - Eugene Lopatkin 30.05.2018

comment

Pengamatan di atas (Peningkatan penggunaan memori eksekutor dan OutOfMemory mematikan eksekutor) ditemukan pada Spark 1.6 dan ketika tugas yang sama dijalankan di Spark 2.2, tidak ada masalah seperti itu yang ditemukan (memori eksekutor yang dikonsumsi meningkat hingga tingkat tertentu dan stabil lebih jauh). - nitin angadi 14.11.2018

Jawaban (1)

arrow_upward
4
arrow_downward

Penjelasan yang bagus tentang Spark UI adalah ini. Blok RDD dapat mewakili partisi RDD yang di-cache, output shuffle perantara, siaran, dll. Lihat bagian BlockManager di buku.

Eugene Lopatkin 29.05.2018

Kapan blok Spark RDD dibuat dan dihancurkan/dihapus?

Jawaban (1)

Pertanyaan tentang topik tersebut