คำถามในหัวข้อ 'rdd'

ลดรายการคำ นับสิ่งอันดับจนถึงคีย์รวม
ฉันกำลังพยายามใช้ตัวอย่างการนับจำนวนคำ Spark และจำนวนคำรวมด้วยค่าอื่น ๆ (เช่น คำและการนับตามบุคคลที่บุคคลคือ "VI" หรือ "MO" ในกรณีด้านล่าง) ฉันมี rdd ซึ่งเป็นรายการสิ่งอันดับที่มีค่าเป็นรายการสิ่งอันดับ: from operator import add reduced_tokens...
1473 มุมมอง
schedule 15.01.2024

บล็อก Spark RDD จะถูกสร้างและทำลาย/ลบออกเมื่อใด
มีคอลัมน์ชื่อ RDD บล็อกใน Spark UI ในแท็บผู้ดำเนินการ ข้อสังเกตประการหนึ่งคือจำนวน RDD บล็อกเพิ่มขึ้นเรื่อยๆ สำหรับงานสตรีมมิ่งเฉพาะที่มีการสตรีมข้อความจาก Kafka...
1680 มุมมอง
schedule 03.12.2023

แยกปีจาก Date ใน Pyspark dataframe
ฉันมีกรอบข้อมูล Pyspark ที่มีคอลัมน์วันที่ "วันที่รายงาน" (ประเภท: สตริง) ฉันต้องการนับจำนวนคอลัมน์อื่นหลังจากแยกปีออกจากวันที่ ฉันสามารถรับการนับได้หากฉันใช้คอลัมน์วันที่ของสตริง crimeFile_date.groupBy("Reported Date").sum("Offence...
8155 มุมมอง
schedule 16.12.2023

ค่าคีย์สูงสุดในการดำเนินการตาม rdd ใน pyspark
ฉันยังใหม่ต่อการดำเนินการตาม rdd ฉันกำลังพยายามทำความเข้าใจคีย์-ค่าสูงสุด ฉันมี rdd เช่นนี้: RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)]) ฉันต้องหาองค์ประกอบที่ 2...
21 มุมมอง
schedule 08.12.2023