В пользовательском интерфейсе Spark на вкладке исполнителей есть столбец с названием RDD
блоки. Было сделано одно наблюдение: количество блоков RDD
продолжает увеличиваться для конкретного задания потоковой передачи, когда сообщения передаются из Kafka.
Некоторые исполнители были удалены автоматически, и после длительного запуска с большим количеством RDD
блоков приложение замедляется. DStreams
и RDDs
нигде вручную не сохраняются.
Было бы очень полезно, если бы кто-нибудь объяснил, когда создаются эти блоки и на каком основании они удаляются (есть ли какие-либо параметры, которые нужно изменить?).