S3 Sync против межрегиональной репликации

У меня ~ 1.5ПБ данных в S3 us-west-1. Я хочу скопировать это в регион us-east-2. Что мне следует использовать - межрегиональную репликацию или S3 Sync? И каковы плюсы и минусы использования этих двух вариантов?

Я изучил несколько потоков AWS и обнаружил, что они подробно описывают каждую (например, https://aws.amazon.com/premiumsupport/knowledge-center/s3-large-transfer-between-buckets/ и https://aws.amazon.com/premiumsupport/knowledge-center/s3-bucket-migrate-region/), без объяснения разницы между ними.

Обратите внимание, что наша политика безопасности не разрешает использование Snowball Edge.

Кто-нибудь может мне помочь?


person awsuser2021    schedule 09.10.2020    source источник


Ответы (2)


Когда вы добавляете репликацию в свою корзину, объекты, которые существовали до этого, не будут скопированы в другую корзину. Репликация также не позволит вам выполнить репликацию, если объекты созданы с шифрованием на стороне сервера с использованием ключей шифрования, предоставленных клиентом (SSE-C). для получения дополнительных сведений прочтите это.

Итак, в этом случае вы можете либо использовать AWS S3 Sync, либо команду AWCCLi cp (будет медленнее), либо использовать Snowball Edge (что вы не можете делать в соответствии с описанием)

aws s3 cp --recursive s3://<bucket>>
aws s3 sync s3://<bucket> s3://<bucket>>

AWS Sync хорош для объектов / корзин небольшого размера, но, как вы упомянули, у вас есть петабайты данных, поэтому я предоставлю вам два решения:

  1. Пакетные операции S3: Вы можете использовать пакетные операции Amazon S3 для копирования нескольких объектов с помощью одного запроса.
  2. S3DistCp: операция S3DistCp в Amazon EMR может выполнять параллельное копирование больших объемов объектов в корзинах Amazon S3. Подробнее…

После копирования данных в другое ведро S3 вы можете включить репликацию, которая будет реплицировать все новые объекты.

Примечания. Эти решения могут быть дорогими, поэтому обязательно ознакомьтесь с их стоимостью при использовании этих операций.

person KayD    schedule 09.10.2020
comment
Спасибо KayD. Кроме того, можем ли мы скопировать столько данных с помощью консоли S3? Вы знаете? Буду признателен за ваши мысли. - person awsuser2021; 09.10.2020
comment
@ awsuser2021 Snowball Edge имеет ограничение на 83 ТБ полезного хранилища. Вы можете передавать в AWS очень большие объемы данных - до 100 ПБ на снегоход. Вы можете рассмотреть возможность использования AWS Snowmobile для других вариантов, но в вашем случае оба варианта вам не подходят, потому что ваши данные уже находятся в AWS. Да, используя S3 Bucket с консоли, вы можете копировать в другие bucket, что похоже на aws cp из awscli, я не рекомендую. Использование aws sync будет лучшим вариантом вместо копирования. - person KayD; 09.10.2020

Репликация скопирует новые объекты PUT в целевую корзину.

Синхронизация скопирует существующие объекты в целевую корзину.

Обычно вы включаете репликацию, а затем запускаете синхронизацию один раз, чтобы скопировать существующие объекты.

person Greg    schedule 09.10.2020
comment
Интересно, перезаписываем ли мы объекты. А потом запускаем синхронизацию. Как бы он узнал, какая версия самая последняя? Я знаю, что у него есть идентификатор версии, но S3 достаточно умен, чтобы знать, что новая версия - это та, которая прошла репликацию, а не синхронизацию? - person Bao Thai; 20.11.2020
comment
Ознакомьтесь с документацией здесь. awscli.amazonaws.com/v2/documentation/api/ последний / ссылка / s3 / The default behavior is to ignore same-sized items unless the local version is newer than the S3 version. - person Greg; 20.11.2020