Saya memiliki kumpulan data besar file parket yang dipartisi yang disimpan di AWS s3 dan saya hanya ingin membaca sampel dari data setiap bulan menggunakan AWS EMR. Saya harus memfilter data setiap bulan berdasarkan nilai "user_id" dengan memilih, misalnya, data dari 100.000 pengguna (dari jutaan) dan menulis agregasi kembali ke s3.
Saya menemukan cara membaca dan menulis ke s3 menggunakan cluster EMR, tetapi saya mengujinya pada kumpulan data yang sangat kecil. Untuk dataset sebenarnya, saya perlu memfilter data agar dapat memprosesnya. Bagaimana cara melakukan ini menggunakan pyspark?