Kami menjalankan cluster node 5 dc1.large dan mengalami masalah dalam menskalakan pemuatan data kami.
Masing-masing "loader" merupakan proses terpisah yang: - menjalankan perintah COPY dari S3 ke dalam staging table - kemudian dilakukan penghapusan pada live table (untuk menghapus baris-baris yang ada di staging table) - terakhir data staging disisipkan ke dalam tabel utama
Di atas pada dasarnya adalah teknik yang direkomendasikan di doc:
Detail penting yang perlu diperhatikan adalah bahwa setiap loader beroperasi pada kumpulan tabel yang terpisah (yaitu tidak ada pertentangan kunci antar loader karena mereka beroperasi pada kumpulan data pelanggan yang berbeda) Jadi loader yang satu akan menyalin ke tabel L1_Staging dan akhirnya ke tabel L1_main, loader dua akan disalin ke L2_staging dan akhirnya ke tabel L2_main dll.
Apa yang kami perhatikan adalah ketika beberapa loader berjalan secara paralel, waktu kerja meningkat seolah-olah pergeseran merah membuat serialisasi semua operasi penulisan. Sekali lagi, tidak ada pertentangan kunci.
Mengapa kita melihat pola ini? Apakah pergeseran merah tidak menangani penulisan paralel dengan baik?