Saya kesulitan memahami kinerja penskalaan komputasi paralel yang memalukan pada Tesla C1060. Menjalankannya menggunakan semua blok dan beberapa utas per blok, saya mendapatkan waktu proses sekitar 0,87 detik.
Namun, jika saya menjalankan semua iterasi hanya dalam satu blok dengan satu thread per blok, waktu proses hingga 1872 detik, yang jauh lebih lama daripada 240x0.87s = 209 detik yang saya harapkan dari hanya memperkecil menjadi hanya menggunakan satu dari 240 prosesor streaming.
Sebaliknya, dengan menggunakan seluruh 240 core sepertinya saya mendapatkan kecepatan lebih dari 2000x. Bagaimana percepatan super-linier ini bisa terjadi; faktor lain apa yang harus saya perhatikan dalam pemodelan kinerja sistem ini?