มีชุดข้อมูลขนาดใหญ่บางชุด (25gb+ ดาวน์โหลดได้ทางอินเทอร์เน็ต) ที่ฉันต้องการลองใช้ Amazon EMR แทนที่จะดาวน์โหลดชุดข้อมูลลงในคอมพิวเตอร์ของฉันเอง แล้วอัปโหลดใหม่ไปยัง Amazon วิธีใดคือวิธีที่ดีที่สุดในการรับชุดข้อมูลไปยัง Amazon
ฉันจะเริ่มการทำงานของอินสแตนซ์ EC2 ดาวน์โหลดชุดข้อมูล (โดยใช้ wget) ลงใน S3 จากภายในอินสแตนซ์ แล้วเข้าถึง S3 เมื่อฉันรันงาน EMR ได้หรือไม่ (ฉันไม่เคยใช้โครงสร้างพื้นฐานคลาวด์ของ Amazon มาก่อน เลยไม่แน่ใจว่าสิ่งที่ฉันเพิ่งพูดไปนั้นสมเหตุสมผลหรือไม่)