У меня есть огромный набор данных секционированных файлов паркета, хранящихся в AWS s3, и я хочу читать только выборку данных за каждый месяц с помощью AWS EMR. Я должен фильтровать данные за каждый месяц по значению «user_id», выбирая, например, данные от 100 000 пользователей (из миллионов) и записывая агрегации обратно в s3.
Я понял, как читать и записывать в s3 с помощью кластеров EMR, но тестировал на очень маленьком наборе данных. Для реального набора данных мне нужно отфильтровать данные, чтобы иметь возможность их обрабатывать. Как это сделать с помощью pyspark?