У меня возникли проблемы с пониманием производительности масштабирования при смущающе-параллельных вычислениях на Tesla C1060. Запустив его, используя все блоки и несколько потоков на блок, я получаю время выполнения около 0,87 с.
Однако, если я запускаю все итерации только в одном блоке с одним потоком на блок, время выполнения составляет до 1872 с, что намного больше, чем 240x0,87 с = 209 с, которые я ожидал бы от простого масштабирования до использования только одного из 240 потоковых процессоров.
Вместо этого, используя все 240 ядер, кажется, я получаю ускорение более чем в 2000 раз. Как могло быть возможно такое сверхлинейное ускорение; на какие еще факторы следует обратить внимание при моделировании производительности этой системы?