คำถามในหัวข้อ 'amazon-emr'

การรับชุดข้อมูลขนาดใหญ่ลงบนแผนที่ยืดหยุ่นของ Amazon ลดลง
มีชุดข้อมูลขนาดใหญ่บางชุด (25gb+ ดาวน์โหลดได้ทางอินเทอร์เน็ต) ที่ฉันต้องการลองใช้ Amazon EMR แทนที่จะดาวน์โหลดชุดข้อมูลลงในคอมพิวเตอร์ของฉันเอง แล้วอัปโหลดใหม่ไปยัง Amazon วิธีใดคือวิธีที่ดีที่สุดในการรับชุดข้อมูลไปยัง Amazon...
882 มุมมอง
schedule 29.12.2023

ไม่สามารถแก้ไขข้อผิดพลาด 2017: ข้อผิดพลาดภายในในการสร้างการกำหนดค่างานบน EMR เมื่อเรียกใช้ PIG
ฉันพยายามรันงานง่ายๆ ด้วย Pig บน Amazon EMR เมื่อฉันรันคำสั่งในเชลล์เชิงโต้ตอบ ทุกอย่างทำงานได้ดี แต่เมื่อฉันดำเนินการแบบเดียวกับงานแบทช์ ฉันก็ได้ [หลัก] ข้อผิดพลาด org.apache.pig.tools.grunt.Grunt - ข้อผิดพลาด 2017:...
1981 มุมมอง
schedule 17.11.2023

การกรองไฟล์ปาร์เก้เมื่ออ่านด้วย PySpark
ฉันมีชุดข้อมูลขนาดใหญ่ของไฟล์ Parquet ที่แบ่งพาร์ติชันซึ่งจัดเก็บไว้ใน AWS s3 และฉันต้องการอ่านเฉพาะตัวอย่างจากข้อมูลในแต่ละเดือนโดยใช้ AWS EMR ฉันต้องกรองข้อมูลในแต่ละเดือนด้วยค่า "user_id" โดยเลือก เช่น ข้อมูลจากผู้ใช้ 100,000 ราย (จากหลายล้านคน)...
930 มุมมอง

กะพริบบนโหนดงาน AWS EMR
เป็นไปได้ไหมที่จะรันตัวจัดการงาน Flink บนโหนดงานของ AWS EMR ถ้าใช่ มันแตกต่างจากการรันตัวจัดการงานบนโหนดหลักอย่างไร
99 มุมมอง