Saya ingin membuat loop di pyspark di mana saya memberikan satu bulan dan itu harus memilih tabel pada akhir bulan dan akhir bulan pada bulan sebelumnya. Pemilihan bulan dilakukan dengan string. Jadi saya berikan '201901' dan harus memilih '20190131' dan '20181231'.
Dan jika memungkinkan, ini harus berjalan secara otomatis dan memilih akhir bulan sebelumnya dari hari ini dan akhir bulan sebelumnya hari ini. Jadi hari ini kita adalah 07-05-2020 jadi harus memilih '20200430' dan '20200331'.
def selectTables(date):
i = 0
for i in range(len(date)):
recentDate = .... # should be for the first iteration '20190131'
previousDate = .... # should be for the first iteration '20181231'
recent = spark.read.parquet('table.parquet/date=' + recentDate[i])
previous = spark.read.parquet('table.parquet/date=' + previousDate[i])
selectTables(['201901', '201902'])