ฉันมีชุดข้อมูลขนาดใหญ่ของไฟล์ Parquet ที่แบ่งพาร์ติชันซึ่งจัดเก็บไว้ใน AWS s3 และฉันต้องการอ่านเฉพาะตัวอย่างจากข้อมูลในแต่ละเดือนโดยใช้ AWS EMR ฉันต้องกรองข้อมูลในแต่ละเดือนด้วยค่า "user_id" โดยเลือก เช่น ข้อมูลจากผู้ใช้ 100,000 ราย (จากหลายล้านคน) และเขียนการรวมกลุ่มกลับไปที่ s3
ฉันรู้วิธีอ่านและเขียนไปยัง s3 โดยใช้คลัสเตอร์ EMR แต่ฉันทดสอบกับชุดข้อมูลขนาดเล็กมาก สำหรับชุดข้อมูลจริงฉันต้องกรองข้อมูลเพื่อให้สามารถประมวลผลได้ จะทำสิ่งนี้โดยใช้ pyspark ได้อย่างไร?