Когда создаются и уничтожаются / удаляются блоки Spark RDD?

В пользовательском интерфейсе Spark на вкладке исполнителей есть столбец с названием RDD блоки. Было сделано одно наблюдение: количество блоков RDD продолжает увеличиваться для конкретного задания потоковой передачи, когда сообщения передаются из Kafka.

Некоторые исполнители были удалены автоматически, и после длительного запуска с большим количеством RDD блоков приложение замедляется. DStreams и RDDs нигде вручную не сохраняются.

Было бы очень полезно, если бы кто-нибудь объяснил, когда создаются эти блоки и на каком основании они удаляются (есть ли какие-либо параметры, которые нужно изменить?).

apache-spark spark-streaming rdd

nitin angadi 12.04.2018 источник

comment

Похоже на возможный дубликат этого: stackoverflow.com/questions/38067919/ - Eugene Lopatkin 30.05.2018

comment

Вышеупомянутое наблюдение (увеличение использования памяти исполнителями и OutOfMemory убило исполнителей) было обнаружено в Spark 1.6, и когда та же задача выполнялась в Spark 2.2, таких проблем не обнаружено (потребляемая память исполнителей увеличивается до определенного уровня и остается стабильной. дальше). - nitin angadi 14.11.2018

Ответы (1)

arrow_upward
4
arrow_downward

Хорошее объяснение Spark UI - это. Блоки RDD могут представлять кэшированные разделы RDD, промежуточные выходные данные в случайном порядке, широковещательные рассылки и т. Д. Ознакомьтесь с разделом BlockManager этого книга.

Eugene Lopatkin 29.05.2018

Когда создаются и уничтожаются / удаляются блоки Spark RDD?

Ответы (1)

Вопросы по теме