В чем разница между озером данных с HDFS или S3 в AWS?

Мне нужно создать озеро данных на AWS, но я не знаю, чем именно S3 отличается от HDFS. Я нашел несколько ответов в Интернете, но я до сих пор не понимаю реальной разницы.

Мне также нужно знать, есть ли у кого-то архитектура озера данных HDFS и S3 в AWS.


person Aziza Sbai El Idrissi    schedule 11.07.2019    source источник
comment
Каков ваш конкретный вариант использования? Вы используете только один кластер Hadoop? Как данные поступают и выходят? Не стесняйтесь редактировать свой вопрос, чтобы добавить больше деталей, чтобы получить более подробный ответ.   -  person John Rotenstein    schedule 12.07.2019
comment
Мне нужно внедрить Informatica BDM в AWS и создать озеро данных   -  person Aziza Sbai El Idrissi    schedule 12.07.2019


Ответы (1)


HDFS доступна только для кластера Hadoop, в котором она существует. Если кластер выключится или прекратит работу, данные в HDFS исчезнут.

Данные в Amazon S3:

  • Остается доступным в любое время (его нельзя «отключить»)
  • Доступен для нескольких кластеров
  • Доступен для других сервисов AWS, таких как Amazon Athena (который представляет собой «Presto как услугу», поэтому вам может даже не понадобиться кластер Hadoop)
  • Имеет несколько классов хранения, например для хранения редко используемых данных по более низкой цене.
  • Не имеет ограничений на объем хранилища (в то время как HDFS ограничена объемом хранилища, доступным в кластере Hadoop).
person John Rotenstein    schedule 12.07.2019