c++ - 我如何在 CUDA 中正确使用全局内存?

标签 c++ c memory-management cuda gpu

我正在尝试在 CUDA 中做一个应用程序,它使用由 device 定义的全局内存。 此变量在 .cuh 文件中声明。

在另一个文件 .cu 中,我主要在其中执行 cudaMallocs 和 cudaMemCpy。

那是我的代码的一部分:

cudaMalloc((void**)&varOne,*tam_varOne * sizeof(cuComplex));
cudaMemcpy(varOne,C_varOne,*tam_varOne * sizeof(cuComplex),cudaMemcpyHostToDevice);

varOne 在 .cuh 文件中声明如下:

    __device__ cuComplex *varOne;

当我启动我的内核(我没有将 varOne 作为参数传递)并尝试使用调试器读取 varOne 时,它​​说无法读取变量。指针指向它 000..0 所以很明显它是错误的。

那么,我必须如何在 CUDA 中声明和复制全局内存?

最佳答案

首先,您需要声明指向将从 CPU 复制到 GPU 的数据的指针。在上面的示例中,我们要将数组 original_cpu_array 复制到 CUDA 全局内存。

int original_cpu_array[array_size];   
int *array_cuda;

计算数据将占用的内存大小。

int size = array_size * sizeof(int);

Cuda内存分配:

msg_erro[0] = cudaMalloc((void **)&array_cuda,size);

从 CPU 复制到 GPU:

msg_erro[0] = cudaMemcpy(array_cuda, original_cpu_array,size,cudaMemcpyHostToDevice);

执行内核

从 GPU 复制到 CPU:

msg_erro[0] = cudaMemcpy(original_cpu_array,array_cuda,size,cudaMemcpyDeviceToHost);

空闲内存:

cudaFree(array_cuda);

出于调试原因,通常,我将函数调用的状态保存在一个数组中。 (例如, cudaError_t msg_erro[var];)。这不是绝对必要的,但如果在分配和内存传输期间发生错误,它将为您节省一些时间。

如果确实发生错误,我会使用如下函数打印它们:

void printErros(cudaError_t *erros,int size, int flag)
{
 for(int i = 0; i < size; i++)
     if(erros[i] != 0)
     {
         if(flag == 0) printf("Alocacao de memoria");
         if(flag == 1) printf("CPU -> GPU  ");
         if(flag == 2) printf("GPU -> CPU  ");
         printf("{%d} => %s\n",i ,cudaGetErrorString(erros[i]));
     }
}

flag主要是为了指明代码中发生错误的部分。例如,在内存分配之后:

msg_erro[0] = cudaMalloc((void **)&array_cuda,size);
printErros(msg_erro,msg_erro_size, 0);

关于c++ - 我如何在 CUDA 中正确使用全局内存?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13275145/

相关文章:

c++ - Visual Studio ,C++ : run main() in dll?

c++ - OpenCV 中的非最大抑制

c - 在 C 中创建一维结构数组的问题

c - 如何进行 "superlong"整数的乘法和除法?

linux - Linux 中的内存分配

c++ - 删除 vector 指针

c++ - 如何从函数中读取文件中的数据

c++ - 嵌套 for 循环 C++ 中的运行时错误

C: 在fork() 之后关闭(2)?

c# - .Net 处理非托管内存的方式是否不同于 C++ 运行时/二进制可执行文件?