คำถามในหัวข้อ 'pyspark-sql'

ฉันจะเชื่อมต่อกับไฮฟ์โดยใช้ pyspark ได้อย่างไร
ฉันกำลังพยายามสร้างตารางใน HIVE แต่กำลังสร้างโฟลเดอร์เช่น testdb.db ภายในโฟลเดอร์ spark-warehouse ฉันจะจัดเก็บโดยตรงใน HIVE ได้อย่างไรในขณะที่เราจัดเก็บไว้ในฐานข้อมูล MySQL/MongoDB conf = SparkConf().setAppName("data_import") sc =...
1699 มุมมอง
schedule 22.11.2023

การกรองไฟล์ปาร์เก้เมื่ออ่านด้วย PySpark
ฉันมีชุดข้อมูลขนาดใหญ่ของไฟล์ Parquet ที่แบ่งพาร์ติชันซึ่งจัดเก็บไว้ใน AWS s3 และฉันต้องการอ่านเฉพาะตัวอย่างจากข้อมูลในแต่ละเดือนโดยใช้ AWS EMR ฉันต้องกรองข้อมูลในแต่ละเดือนด้วยค่า "user_id" โดยเลือก เช่น ข้อมูลจากผู้ใช้ 100,000 ราย (จากหลายล้านคน)...
930 มุมมอง