ฉันมีปัญหาในการทำความเข้าใจประสิทธิภาพการปรับขนาดของการคำนวณแบบขนานที่น่าอับอายบน Tesla C1060 การรันโดยใช้บล็อกทั้งหมดและหลายเธรดต่อบล็อก ฉันได้รับเวลาดำเนินการประมาณ 0.87 วินาที
อย่างไรก็ตาม หากฉันรันการวนซ้ำทั้งหมดในบล็อกเดียวโดยมีหนึ่งเธรดต่อบล็อก เวลารันจะสูงถึง 1872 วินาที ซึ่งนานกว่า 240x0.87s = 209s ที่ฉันคาดหวังจากการลดขนาดลงเพื่อใช้เพียงหนึ่งในนั้นมาก โปรเซสเซอร์สตรีมมิ่ง 240 ตัว
แต่ด้วยการใช้ทั้งหมด 240 คอร์ ดูเหมือนว่าฉันจะได้ความเร็วเพิ่มขึ้นมากกว่า 2,000x การเร่งความเร็วเชิงเส้นพิเศษนี้จะเป็นไปได้อย่างไร ฉันควรคำนึงถึงปัจจัยอื่นใดในการสร้างแบบจำลองประสิทธิภาพของระบบนี้