c++ - 编译包含动态并行性的代码失败

标签 c++ cuda parallel-processing dynamic-execution

我正在使用 CUDA 5.5 和计算能力为 3.5 的 NVDIA GeForce GTX 780 进行动态并行编程。我在内核函数中调用内核函数，但它给了我一个错误:

error : calling a __global__ function("kernel_6") from a __global__ function("kernel_5") is only allowed on the compute_35 architecture or above

我做错了什么？

最佳答案

你可以这样做

nvcc -arch=sm_35 -rdc=true simple1.cu -o simple1 -lcudadevrt

或

如果您有 2 个文件 simple1.cu 和 test.c，那么您可以执行以下操作。这称为单独编译。

nvcc -arch=sm_35 -dc simple1.cu 
nvcc -arch=sm_35 -dlink simple1.o -o link.o -lcudadevrt
g++ -c test.c 
g++ link.o simple1.o test.o -o simple -L/usr/local/cuda/lib64/ -lcudart

在 cuda programming guide 中也有同样的解释。

关于c++ - 编译包含动态并行性的代码失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19287461/

上一篇：c++ - 高效积累

下一篇：c++ - 如何让派生类访问私有(private)成员数据？

相关文章：

c++ - 为嵌入式 Lua 设置超时

C++ for 模板类的范围循环

c++ - 如何只接受多个输入的数字

CUDA - 添加数组元素并将结果分配给另一个数组元素时执行缓慢且错误

cuda - Thrust::transform 自定义函数

linux - 如何使用 bash 等到所有服务并行启动？

c++ - 使用硬盘进行快速访问取代 RAM

c++ - Alglib 与 Cuda

c - 无法避免子进程继承父进程的 cpu 亲和性

algorithm - 用于检测无向图中循环的最佳并行算法