У меня есть около 2500 таблиц, участвующих в расчете. В моей среде разработки у меня очень мало данных в этих таблицах, 10–10 000 строк, причем большинство таблиц находятся в нижней части этого диапазона. Мой расчет просканирует все эти таблицы много раз. Хотя весь набор данных поместился бы в памяти, доступ к нему через HBase невероятно медленный, с огромным объемом дисковой активности.
Как вы думаете, это поможет уменьшить размер блока hdfs? Я полагаю, что если каждая таблица находится в своем собственном блоке, то огромное количество памяти будет потрачено впустую, что предотвратит размещение всего набора данных в ОЗУ. Значительно уменьшенный размер блока позволит системе хранить большую часть, если не все данные в оперативной памяти. В настоящее время размер блока составляет 64 МБ.
Окончательная система будет использоваться в более крупном кластере с гораздо большим объемом памяти и узлов, это сделано исключительно для ускорения моей среды разработки.