คำถามในหัวข้อ 'parquet'

วิธีรับขนาดในหน่วยความจำของวัตถุ ParquetWriter ก่อนที่จะปิดและเขียนลงดิสก์
ฉันกำลังอ่านข้อความ Avro จากสตรีมและเขียนลงในไฟล์ Parquet โดยใช้ parquet.hadoop.ParquetWriter ฉันกำลังพยายามให้มีขนาดไฟล์เอาต์พุตเกินขีดจำกัด ปัญหาคือ ParquetWriter เก็บทุกอย่างไว้ในหน่วยความจำและเขียนลงดิสก์เมื่อสิ้นสุดเมื่อปิดตัวเขียนเท่านั้น...
1805 มุมมอง
schedule 14.12.2023

บันทึกการแบ่ง dataframe ให้เป็นปาร์เก้ด้วย dask
ขณะนี้ฉันกำลังพยายามบันทึกและอ่านข้อมูลจากไฟล์ dask ไปจนถึงไฟล์ปาร์เก้ แต่เมื่อพยายามบันทึก dataframe ด้วย dask "to_parquet" และโหลดอีกครั้งในภายหลังด้วย "read_parquet" ดูเหมือนว่าข้อมูลการแบ่งจะสูญหาย >>df.divisions (Timestamp('2014-10-01...
1600 มุมมอง

บันทึกไฟล์ไม้ปาร์เก้ใน java
ฉันมีตัวแปร myDataset ประเภท Dataset<Row> เมื่อฉันพยายามบันทึกสิ่งนี้ลงในไฟล์ปาร์เก้โดยใช้ myDataset.write().format("parquet").save(output_dir_path) โดยที่ output_dir_path เป็นสตริงที่มีเส้นทางสำหรับไฟล์ที่สร้างขึ้น...
45 มุมมอง