Kapan blok Spark RDD dibuat dan dihancurkan/dihapus?

Ada kolom bernama RDD blok di Spark UI di tab pelaksana. Salah satu pengamatan yang dilakukan adalah jumlah RDD blok terus meningkat untuk tugas streaming tertentu yang mana pesan dialirkan dari Kafka.

Pelaksana tertentu dihapus secara otomatis dan aplikasi melambat setelah dijalankan lama dengan sejumlah besar RDD blok. DStreams dan RDDs tidak disimpan secara manual di mana pun.

Akan sangat membantu jika seseorang menjelaskan kapan blok ini dibuat dan atas dasar apa blok tersebut dihapus (apakah ada parameter yang perlu diubah?).


person nitin angadi    schedule 12.04.2018    source sumber
comment
Sepertinya kemungkinan duplikat dari ini: stackoverflow.com/questions/38067919/   -  person Eugene Lopatkin    schedule 30.05.2018
comment
Pengamatan di atas (Peningkatan penggunaan memori eksekutor dan OutOfMemory mematikan eksekutor) ditemukan pada Spark 1.6 dan ketika tugas yang sama dijalankan di Spark 2.2, tidak ada masalah seperti itu yang ditemukan (memori eksekutor yang dikonsumsi meningkat hingga tingkat tertentu dan stabil lebih jauh).   -  person nitin angadi    schedule 14.11.2018


Jawaban (1)


Penjelasan yang bagus tentang Spark UI adalah ini. Blok RDD dapat mewakili partisi RDD yang di-cache, output shuffle perantara, siaran, dll. Lihat bagian BlockManager di buku.

person Eugene Lopatkin    schedule 29.05.2018