Хранилище BLOB-объектов озера данных

Мне нужно немного понять, я ни на чем не застрял, но я пытаюсь понять что-то лучше.

Почему при загрузке хранилища данных всегда предлагается сначала загрузить данные в хранилище BLOB-объектов или в озеро данных? Я понимаю, что вытащить данные оттуда очень быстро, однако по моему опыту есть пара подводных камней. Во-первых, существует ограничение на размер файла, и если вы загружаете слишком много данных в 1 файл, как я видел, это приводит к ошибке загрузки, и в этот момент мы должны переключить загрузку на инкрементную. Это подводит меня ко второй проблеме. Я всегда думал, что смысл загрузки в хранилище BLOB-объектов заключается в том, чтобы выбросить туда все данные, чтобы вы могли получить к ним доступ в будущем, не нагружая интерфейсные системы, если я не могу этого сделать из-за файловые ограничения, то какой смысл даже использовать хранилище больших двоичных объектов, мы могли бы также загружать данные прямо в промежуточные таблицы. Это просто кажется мне ненужным шагом, поскольку в прошлом я запускал хранилища данных без участия этой части, и для меня они работали лучше.

В любом случае, мое понимание этой части не так хорошо, как хотелось бы, и я пытался найти статьи, которые отвечают на эти конкретные вопросы, но ни одна из них не объяснила мне концепцию правильно. Буду очень признателен за любую помощь или ссылки на хорошие статьи, которые я мог прочитать.


person Glyn Thomas    schedule 02.07.2020    source источник


Ответы (1)


Одной из причин размещения данных в большом двоичном объекте или озере данных является возможность одновременного использования нескольких параллельных считывателей данных. Целью этого является чтение данных в разумные сроки. Не все источники данных поддерживают такой тип операций чтения. Учитывая размер вашего файла, один ридер займет много времени.

Одним из таких примеров может быть SFTP. Не все SFTP-серверы поддерживают чтение со смещением. Некоторые могут иметь дополнительные ограничения на одновременные соединения. Перемещение данных сначала в службы Azure предоставляет известный набор возможностей/ограничений.

В вашем случае, я думаю, вам нужно разбить файл на разделы, как это может сделать HDFS. Если бы я знал, какой источник данных вы используете, у меня могло бы быть еще одно предложение.

person MartinJaffer-MSFT    schedule 13.07.2020
comment
В этом случае фабрика данных загружается с сервера sql db в хранилище больших двоичных объектов, а затем в хранилище данных azure synapse. Это преобразование в середине, которое я не понимаю, зачем загружать его в хранилище BLOB-объектов, когда вы можете просто бросить его прямо в базу данных хранилища. Однако я понимаю вариант использования неструктурированных данных. - person Glyn Thomas; 16.07.2020