คำถามในหัวข้อ 'parquet'
วิธีรับขนาดในหน่วยความจำของวัตถุ ParquetWriter ก่อนที่จะปิดและเขียนลงดิสก์
ฉันกำลังอ่านข้อความ Avro จากสตรีมและเขียนลงในไฟล์ Parquet โดยใช้ parquet.hadoop.ParquetWriter ฉันกำลังพยายามให้มีขนาดไฟล์เอาต์พุตเกินขีดจำกัด ปัญหาคือ ParquetWriter เก็บทุกอย่างไว้ในหน่วยความจำและเขียนลงดิสก์เมื่อสิ้นสุดเมื่อปิดตัวเขียนเท่านั้น...
1805 มุมมอง
schedule
14.12.2023
บันทึกการแบ่ง dataframe ให้เป็นปาร์เก้ด้วย dask
ขณะนี้ฉันกำลังพยายามบันทึกและอ่านข้อมูลจากไฟล์ dask ไปจนถึงไฟล์ปาร์เก้ แต่เมื่อพยายามบันทึก dataframe ด้วย dask "to_parquet" และโหลดอีกครั้งในภายหลังด้วย "read_parquet" ดูเหมือนว่าข้อมูลการแบ่งจะสูญหาย
>>df.divisions
(Timestamp('2014-10-01...
1600 มุมมอง
schedule
14.11.2023
บันทึกไฟล์ไม้ปาร์เก้ใน java
ฉันมีตัวแปร myDataset ประเภท Dataset<Row>
เมื่อฉันพยายามบันทึกสิ่งนี้ลงในไฟล์ปาร์เก้โดยใช้ myDataset.write().format("parquet").save(output_dir_path) โดยที่ output_dir_path เป็นสตริงที่มีเส้นทางสำหรับไฟล์ที่สร้างขึ้น...
45 มุมมอง
schedule
10.11.2023