Ada beberapa kumpulan data besar (25 GB+, dapat diunduh di Internet) yang ingin saya uji menggunakan Amazon EMR. Daripada mengunduh kumpulan data ke komputer saya sendiri, lalu mengunggahnya kembali ke Amazon, apa cara terbaik untuk memasukkan kumpulan data ke Amazon?
Apakah saya menjalankan instans EC2, mengunduh kumpulan data (menggunakan wget) ke S3 dari dalam instans, dan kemudian mengakses S3 ketika saya menjalankan pekerjaan EMR saya? (Saya belum pernah menggunakan infrastruktur cloud Amazon sebelumnya, jadi tidak yakin apakah yang baru saja saya katakan masuk akal.)