c++ - 函数指针(指向其他内核)作为 CUDA 中的内核 arg

标签 c++ cuda function-pointers gpgpu

借助 CUDA 中的动态并行性,您可以从特定版本开始在 GPU 端启动内核。我有一个包装函数,它接受一个指向我想使用的内核的指针,它要么在旧设备的 CPU 上执行此操作,要么在新设备的 GPU 上执行此操作。对于回退路径,它很好,对于 GPU,它不是,并且说内存对齐不正确。

有没有办法在 CUDA (7) 中做到这一点?是否有一些较低级别的调用会给我一个在 GPU 上正确的指针地址?

代码如下,模板“TFunc”试图让编译器做一些不同的事情,但我也试过它是强类型的。

template <typename TFunc, typename... TArgs>
__global__ void Test(TFunc func, int count, TArgs... args)
{
#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 320)
    (*func)<< <1, 1 >> >(args...);
#else
    printf("What are you doing here!?\n");
#endif
}

template <typename... TArgs>
__host__ void Iterate(void(*kernel)(TArgs...), const systemInfo *sysInfo, int count, TArgs... args)
{
    if(sysInfo->getCurrentDevice()->compareVersion("3.2") > 0)
    {
        printf("Iterate on GPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
    else
    {
        printf("Iterate on CPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
}

最佳答案

编辑: 在我最初写这个答案的时候,我相信这些陈述是正确的:不可能在主机代码中获取内核地址。但是我相信从那时起 CUDA 中发生了一些变化,所以现在(在 CUDA 8 中,可能更早)可以在主机代码中获取一个 kernel 地址(仍然不可能获取地址但是,主机代码中的 __device__ 函数。)

原始答案:

虽然 previous examples I can think of 似乎不时出现这个问题与调用 __device__ 函数而不是 __global__ 函数有关。

一般来说,在主机代码中获取设备实体(变量、函数)的地址是非法的。

解决此问题的一种可能方法(尽管我不清楚它的效用;似乎会有更简单的调度机制)是“在设备代码中”提取所需的设备地址并将该值返回给主机,用于调度使用。在这种情况下,我正在创建一个简单的示例,将所需的设备地址提取到 __device__ 变量中,但您也可以编写内核来执行此设置(即“给我一个正确的指针地址GPU”。

这是一个粗略的例子,建立在你展示的代码之上:

$ cat t746.cu
#include <stdio.h>

__global__ void ckernel1(){

  printf("hello1\n");
}
__global__ void ckernel2(){

  printf("hello2\n");
}
__global__ void ckernel3(){

  printf("hello3\n");
}

__device__ void (*pck1)() = ckernel1;
__device__ void (*pck2)() = ckernel2;
__device__ void (*pck3)() = ckernel3;

template <typename TFunc, typename... TArgs>
__global__ void Test(TFunc func, int count, TArgs... args)
{
#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 350)
    (*func)<< <1, 1 >> >(args...);
#else
    printf("What are you doing here!?\n");
#endif
}

template <typename... TArgs>
__host__ void Iterate(void(*kernel)(TArgs...), const int sysInfo, int count, TArgs... args)
{
    if(sysInfo >= 350)
    {
        printf("Iterate on GPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
    else
    {
        printf("Iterate on CPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
}


int main(){

  void (*h_ckernel1)();
  void (*h_ckernel2)();
  void (*h_ckernel3)();
  cudaMemcpyFromSymbol(&h_ckernel1, pck1, sizeof(void *));
  cudaMemcpyFromSymbol(&h_ckernel2, pck2, sizeof(void *));
  cudaMemcpyFromSymbol(&h_ckernel3, pck3, sizeof(void *));
  Iterate(h_ckernel1, 350, 1);
  Iterate(h_ckernel2, 350, 1);
  Iterate(h_ckernel3, 350, 1);
  cudaDeviceSynchronize();
  return 0;
}

$ nvcc -std=c++11 -arch=sm_35 -o t746 t746.cu -rdc=true -lcudadevrt
$ cuda-memcheck ./t746
========= CUDA-MEMCHECK
Iterate on GPU
Iterate on GPU
Iterate on GPU
hello1
hello2
hello3
========= ERROR SUMMARY: 0 errors
$

上面的 (__device__ variable) 方法可能无法与模板化的子内核一起工作,但是可以创建一个模板化的“提取器”内核,它返回一个 (实例化)模板化的子内核。我链接的上一个答案中给出了“提取器”setup_kernel 方法的粗略概念。这是模板化子内核/提取器内核方法的粗略示例:

$ cat t746.cu
#include <stdio.h>

template <typename T>
__global__ void ckernel1(T *data){

  int my_val = (int)(*data+1);
  printf("hello: %d \n", my_val);
}
template <typename TFunc, typename... TArgs>
__global__ void Test(TFunc func, int count, TArgs... args)
{
#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 350)
    (*func)<< <1, 1 >> >(args...);
#else
    printf("What are you doing here!?\n");
#endif
}

template <typename... TArgs>
__host__ void Iterate(void(*kernel)(TArgs...), const int sysInfo, int count, TArgs... args)
{
    if(sysInfo >= 350)
    {
        printf("Iterate on GPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
    else
    {
        printf("Iterate on CPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
}

template <typename T>
__global__ void extractor(void (**kernel)(T *)){

  *kernel = ckernel1<T>;
}

template <typename T>
void run_test(T init){

  void (*h_ckernel1)(T *);
  void (**d_ckernel1)(T *);
  T *d_data;
  cudaMalloc(&d_ckernel1, sizeof(void *));
  cudaMalloc(&d_data, sizeof(T));
  cudaMemcpy(d_data, &init, sizeof(T), cudaMemcpyHostToDevice);
  extractor<<<1,1>>>(d_ckernel1);
  cudaMemcpy((void *)&h_ckernel1, (void *)d_ckernel1, sizeof(void *), cudaMemcpyDeviceToHost);
  Iterate(h_ckernel1, 350, 1, d_data);
  cudaDeviceSynchronize();
  cudaFree(d_ckernel1);
  cudaFree(d_data);
  return;
}

int main(){

  run_test(1);
  run_test(2.0f);

  return 0;
}

$ nvcc -std=c++11 -arch=sm_35 -o t746 t746.cu -rdc=true -lcudadevrt
$ cuda-memcheck ./t746
========= CUDA-MEMCHECK
Iterate on GPU
hello: 2
Iterate on GPU
hello: 3
========= ERROR SUMMARY: 0 errors
$

关于c++ - 函数指针(指向其他内核)作为 CUDA 中的内核 arg,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30002353/

相关文章:

python - 与默认计数器相比,GPU 上的计数器慢得要命?

c++ - Cuda矩阵乘法给出错误答案

c++ - 如何使用宏作为函数指针?

c - 如何使用函数指针数组?

函数返回函数指针的 C 语法

c++ - 替换 std::string 中字符的最快(也是最安全)方法

c++ - 带有自定义 vector 的 set_interaction 示例不起作用

c++ - HtmlHelp MS API 搜索字符串

c++ - ~ 十六进制数之前的符号

c++ - 我如何在tensorflow中在gpu和cpu之间拉/推数据