คำถามในหัวข้อ 'pyspark-dataframes'

สร้างเวกเตอร์กระจัดกระจายว่างใน PySpark
ฉันมี dataframe DF1 ที่มีลักษณะดังนี้: +-------+------+ |user_id|meta | +-------+------+ | 1| null| | 11| null| | 15| null| +-------+------+ สคีมา: root |-- user_id: string (nullable = true) |-- meta: string (nullable =...
150 มุมมอง

จะอ่านไฟล์บรรทัด json ที่ถูกบีบอัด gzip ใน PySpark dataframe ได้อย่างไร
ฉันมีไฟล์บรรทัด JSON ที่ฉันต้องการอ่านลงในเฟรมข้อมูล PySpark ไฟล์ถูกบีบอัดด้วย gzip ชื่อไฟล์มีลักษณะดังนี้: file.jl.gz ฉันรู้วิธีอ่านไฟล์นี้ในกรอบข้อมูลแพนด้า: df= pd.read_json('file.jl.gz', lines=True, compression='gzip) ฉันยังใหม่กับ...
702 มุมมอง