Есть несколько больших наборов данных (более 25 ГБ, которые можно загрузить в Интернете), с которыми я хочу поиграться с помощью Amazon EMR. Вместо того, чтобы загружать наборы данных на свой компьютер, а затем повторно загружать их на Amazon, как лучше всего загрузить наборы данных на Amazon?
Нужно ли запускать экземпляр EC2, загружать наборы данных (с помощью wget) в S3 из экземпляра, а затем обращаться к S3 при выполнении заданий EMR? (Раньше я не использовал облачную инфраструктуру Amazon, поэтому не уверен, что то, что я только что сказал, имеет смысл.)