สิ่งพิมพ์ตามแท็ก cuda

สิ่งตีพิมพ์ในหัวข้อ 'cuda'

ตั้งแต่เริ่มต้นจนถึงการติดตั้ง CUDA และการคอมไพล์ TensorFlow จากแหล่งที่มาบน Ubuntu 20.04

น่าหงุดหงิด เสมอที่ต้องเสียเวลาไปกับการใช้บทช่วยสอนออนไลน์ต่างๆ เกี่ยวกับวิธีการติดตั้งไดรเวอร์ Nvidia, CUDA, cuDNN หรือวิธีการรวบรวมแหล่งที่มาของ TensorFlow ด้วยการรองรับ GPU ที่นำไปสู่การทำงานผิดพลาดหรือข้อผิดพลาดในการคอมไพล์ ตัวฉันเอง ฉันเสียเวลาหลายวันในการพยายามติดตั้งเครื่องมือและไลบรารีเหล่านี้อย่างถูกต้อง แม้ว่าบทช่วยสอนอย่างเป็นทางการจะไม่ทำงานก็ตาม ที่นี่ ฉันต้องการแบ่งปันกับชุมชนการเรียนรู้ของเครื่องและการประมวลผล GPU ว่าอะไรที่เหมาะกับการกำหนดค่าของฉัน..

คำถามในหัวข้อ 'cuda'

ความสอดคล้องของตัวชี้ฟังก์ชัน Cuda [ซ้ำกัน]

ฉันเพิ่งลองใช้ตัวชี้ฟังก์ชันเพื่อกำหนดขั้นตอนการประมวลผลต่างๆ ในแอปพลิเคชันของฉันแบบไดนามิก ซึ่งทำงานบน sm_30 การโพสต์โค้ดที่นี่อาจเป็นเรื่องยาก เนื่องจากมีไฟล์และฟังก์ชันที่แตกต่างกันมากมายที่เกี่ยวข้อง แต่โดยพื้นฐานแล้ว...

480 มุมมอง

cuda function-pointers gpgpu

29.12.2023

คัดลอกอาร์เรย์ได้เร็วขึ้นเมื่อใช้เธรดน้อยลงใน CUDA

ฉันทดสอบสองวิธีที่แตกต่างกันในการคัดลอกอาร์เรย์ 2D ในเคอร์เนล CUDA อันแรกเปิดตัวบล็อกของเธรด TILE_DIM x TILE_DIM แต่ละบล็อกจะคัดลอกไทล์ของอาเรย์โดยกำหนดหนึ่งเธรดต่อองค์ประกอบ: __global__ void simple_copy(float *outdata, const float *indata){...

1487 มุมมอง

cuda

15.01.2024

เป็นไปได้ไหมที่จะเข้าถึง GPU-RAM จาก CPU-Cores ด้วยตัวชี้อย่างง่ายใน CUDA6 ใหม่

ตอนนี้ หากฉันใช้โค้ดนี้เพื่อลองเข้าถึง GPU-RAM จาก CPU-Core โดยใช้ CUDA5.5 ใน GeForce GTX460SE (CC2.1) ฉันจะได้รับข้อยกเว้น "การละเมิดการเข้าถึง": #include "cuda_runtime.h" #include "device_launch_parameters.h" #include <iostream> int...

3000 มุมมอง

nvidia cuda virtual-address-space gpgpu

15.12.2023

จะอธิบายการเร่งความเร็วซูเปอร์เชิงเส้นที่พบในอุปกรณ์ GPU ด้วยรหัส CUDA ได้อย่างไร

ฉันมีปัญหาในการทำความเข้าใจประสิทธิภาพการปรับขนาดของการคำนวณแบบขนานที่น่าอับอายบน Tesla C1060 การรันโดยใช้บล็อกทั้งหมดและหลายเธรดต่อบล็อก ฉันได้รับเวลาดำเนินการประมาณ 0.87 วินาที อย่างไรก็ตาม...

385 มุมมอง

performance parallel-processing cuda

08.11.2023

CUDA Thrust ลด_by_key โดยใช้หน่วยความจำน้อยลง

ฉันกำลังพยายามลดหน่วยความจำที่จำเป็นในการคำนวณลดขนาดโดย_คีย์สำหรับกรณีการใช้งานของฉัน ฉันมีคีย์ที่ไม่ซ้ำกันจำนวนค่อนข้างน้อย (ประมาณ 100-150) เมื่อเทียบกับจำนวนค่า (ประมาณ 16 ล้าน) การลดลงตามคีย์ ตัวอย่าง แสดงให้เห็นว่า device_vectors...

403 มุมมอง

c++ cuda thrust

24.10.2023

คำเตือน: __host__ คำอธิบายประกอบในฟังก์ชันเริ่มต้นถูกละเว้น ‹- เพราะเหตุใด

เมื่อเปลี่ยนจาก CUDA 8.0 เป็น CUDA 9.0 RC ฉันได้รับคำเตือนเกี่ยวกับ: __host__ __device__ ~Foo() = default; คำเตือนคือ: path/to/Foo.cuh(69): warning: __host__ annotation on a defaulted function("~Foo") is ignored...

1535 มุมมอง

compiler-warnings cuda nvcc destructor

30.11.2023

สตรีมข้อมูลไปยังเคอร์เนล CUDA โดยไม่ต้องเปิดหลายครั้ง

ฉันกำลังพยายาม GPU เร่งอัลกอริธึมโดยที่ฉันได้รับกระแสอนุภาคแบบอะซิงโครนัสในพื้นที่ 3 มิติ $p=[x,y,t]$ เวกเตอร์แต่ละตัว $p_n$ ต้องคูณด้วยเมทริกซ์การแปลงจำนวนหนึ่ง เนื่องจากการเปลี่ยนแปลงเหล่านี้เป็นอิสระจากกัน จึงสามารถเกิดขึ้นพร้อมกันได้...

267 มุมมอง

c++ cuda

05.11.2023

dot product พร้อม PyCUDA และหน่วยความจำที่ปักหมุด

ขณะนี้ฉันกำลังทำงานกับดอทโปรดัคที่มีหน่วยความจำที่ปักหมุดไว้โดยใช้ PyCUDA และฉันมีปัญหากับอาร์เรย์ขนาดใหญ่ ฉันทำงานกับ: NVIDIA GTX1060 CUDA 9.1 PyCUDA 2017.1.1 รหัสคือ: #!/usr/bin/env python import numpy as np import argparse...

865 มุมมอง

gpu memory-management cuda dot-product pycuda

29.12.2023

Cuda CMake 3.10 CMakeLists.txt

ฉันมีโครงการ Visual c++ ซึ่งสร้าง dll สำหรับโปรเจ็กต์นี้ ฉันมี CMakeLists.txt ที่ใช้งานได้ ตอนนี้ฉันสร้างไฟล์ต้นฉบับ cuda สองไฟล์ซึ่งทำให้โปรเจ็กต์เสร็จสมบูรณ์ และด้วย Visual Studio บิลด์ก็ทำงานได้ดี ฉันต้องการเพิ่มคำสั่งที่ตรงกันลงในไฟล์ cmake...

4426 มุมมอง

cmake cuda

03.11.2023

pynvrtc บน Google Colab: ไม่พบ libnvrtc.so

ในสมุดบันทึก Google Colab ฉันกำลังติดตั้งแพ็คเกจ python ซึ่งใช้ pynvrtc เพื่อรวบรวมรหัส CUDA บางส่วน ฉันได้รับข้อผิดพลาด: OSError: libnvrtc.so: cannot open shared object file: No such file or directory ฉันรัน !find / -name 'libnvrtc.*'...

2769 มุมมอง

python google-colaboratory cuda

13.01.2024

การแปลงผกผัน 2D CuFFT ผิดเมื่อเปรียบเทียบกับ fftw3 [ปิด]

ฉันกำลังพยายามสร้างคณิตศาสตร์ FFT โดยเฉพาะอย่างยิ่ง มันทำการแปลงไปข้างหน้า 2D สองครั้ง คูณมัน แล้วจึงทำการแปลงผกผัน ก่อนการแปลงผกผัน ทุกอย่างไปได้ดี ฉันได้ทำไปแล้วโดย fftw3 แต่ใน CuFFT มีบางอย่างผิดพลาด ค่าส่วนใหญ่คล้ายกัน แต่มีบางค่าที่ผิด...

113 มุมมอง

c++ cuda fftw cufft

06.11.2023

การล็อค Numba Cuda ไม่สิ้นสุด

ฉันกำลังพยายามสร้างสแต็กที่ปลอดภัยสำหรับเธรดอย่างง่ายใน numba cuda แต่เมื่อฉันพยายามใช้สแต็กโค้ดแฮงค์ (สันนิษฐานว่ามาจากลูป while ระหว่างการล็อค) การรันด้วยเธรดเดียวทำงานได้ดีและ mutex จะถูกตั้งค่ากลับเป็นศูนย์ แต่หากมีมากกว่าหนึ่งเธรด...

42 มุมมอง

python cuda numba mutex

21.01.2024