บล็อก Spark RDD จะถูกสร้างและทำลาย/ลบออกเมื่อใด

มีคอลัมน์ชื่อ RDD บล็อกใน Spark UI ในแท็บผู้ดำเนินการ ข้อสังเกตประการหนึ่งคือจำนวน RDD บล็อกเพิ่มขึ้นเรื่อยๆ สำหรับงานสตรีมมิ่งเฉพาะที่มีการสตรีมข้อความจาก Kafka

ตัวดำเนินการบางตัวถูกลบออกโดยอัตโนมัติและแอปพลิเคชันทำงานช้าลงหลังจากใช้งานเป็นเวลานานโดยมีบล็อก RDD จำนวนมาก DStreams และ RDDs จะไม่คงอยู่ด้วยตนเองทุกที่

จะช่วยได้มากถ้ามีคนอธิบายว่าบล็อกเหล่านี้ถูกสร้างขึ้นเมื่อใด และบล็อกดังกล่าวถูกลบออกโดยพื้นฐานใด (มีพารามิเตอร์ใดบ้างที่จำเป็นต้องแก้ไข)


person nitin angadi    schedule 12.04.2018    source แหล่งที่มา
comment
ดูเหมือนว่าจะซ้ำกันที่เป็นไปได้: stackoverflow.com/questions/38067919/   -  person Eugene Lopatkin    schedule 30.05.2018
comment
การสังเกตข้างต้น (การเพิ่มขึ้นของการใช้หน่วยความจำของผู้บริหารและ OutOfMemory ฆ่าผู้บริหาร) พบใน Spark 1.6 และเมื่อมีการรันงานเดียวกันใน Spark 2.2 ก็ไม่พบปัญหาดังกล่าว (หน่วยความจำของผู้บริหารที่ใช้เพิ่มขึ้น จนถึงระดับหนึ่งและมีความเสถียร ไกลออกไป).   -  person nitin angadi    schedule 14.11.2018


คำตอบ (1)


คำอธิบายที่ดีของ Spark UI คือสิ่งนี้ บล็อก RDD สามารถแสดงถึงพาร์ติชั่น RDD ที่แคชไว้, เอาต์พุตสับเปลี่ยนระดับกลาง, การออกอากาศ ฯลฯ ลองดูส่วน BlockManager ของ จอง

person Eugene Lopatkin    schedule 29.05.2018