Saya memiliki sekitar 2500 tabel yang terlibat dalam perhitungan. Di lingkungan pengembang saya, saya memiliki sangat sedikit data dalam tabel ini, 10 - 10.000 baris dengan sebagian besar tabel berada di ujung bawah kisaran ini. Perhitungan saya akan memindai semua tabel ini berkali-kali. Meskipun seluruh kumpulan data akan muat dalam memori, pengaksesannya melalui HBase sangatlah lambat, dengan aktivitas disk yang sangat besar.
Apakah menurut Anda ini akan membantu mengurangi ukuran blok hdfs? Alasan saya adalah jika setiap tabel berada di bloknya sendiri maka sejumlah besar memori akan terbuang percuma, sehingga mencegah seluruh kumpulan data berada di RAM. Ukuran blok yang sangat berkurang akan memungkinkan sistem menyimpan sebagian besar, jika tidak seluruh, data dalam RAM. Saat ini ukuran bloknya adalah 64MB.
Sistem terakhir akan digunakan dalam cluster yang lebih besar dengan memori dan node yang jauh lebih banyak, ini murni untuk mempercepat lingkungan pengembangan saya.