c++ - CUDA - 简单的复数乘法

标签 c++ cuda

我正在尝试通过编写基本代码来学习 CUDA,这有望让我能够更好地将我现有的 C++ 代码转换为 CUDA(用于研究)。

我需要做一些复杂的数字操作,所以我写了这个非常基本的代码来将一个复数数组与一个实数相乘 在 GPU 内核中。

#include <complex>
#include <iostream>
#include <cmath>
#include "cuda.h"
#include "math.h"
#include "cuComplex.h"

#define n   5

using namespace std;

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
    if (code != cudaSuccess) 
    {
        fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
        if (abort) exit(code);
    }
}

__global__ void func( double *s, cuDoubleComplex *j, cuDoubleComplex *calc ) {

    int tid = blockIdx.x;

    calc[tid] = cuCmul(j[tid], make_cuDoubleComplex(*s, 0));

}

int main( void ) {


    cuDoubleComplex calc[n+1], *dev_j, *dev_calc;
    double *dev_s, s[n+1] = { 2.0, 2.0, 2.0, 2.0, 2.0 };
    //complex<double> j[n+1]
    cuDoubleComplex j[n+1];

    for (int i = 1; i <= n; i++) {
        j[i] = make_cuDoubleComplex(0, 5);
        cout << "\nJ cout = " << cuCreal(j[i]) << ", " << cuCimag(j[i]);
    }

    // allocate the memory on the GPU
    cudaMalloc( (void**)&dev_s, (n+1) * sizeof(double) );
    cudaMalloc( (void**)&dev_j, (n+1) * sizeof(double) );
    cudaMalloc( (void**)&dev_calc, (n+1) * sizeof(double) );

    cudaMemcpy( dev_s, s, (n+1) * sizeof(double), cudaMemcpyHostToDevice );
    cudaMemcpy( dev_j, j, (n+1) * sizeof(double), cudaMemcpyHostToDevice );

    func<<<n,1>>>( dev_s, dev_j, dev_calc );
    //kernel<<<1,1>>>(a_d);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaMemcpy(calc, dev_calc, (n+1) * sizeof(double), cudaMemcpyDeviceToHost) );

    //cudaMemcpy( calc, dev_calc, (n+1) * sizeof(double), cudaMemcpyDeviceToHost );

    for (int i = 1; i <= n; i++) {
        cout << "\nCALC cout = " << cuCreal(calc[i]) << ", " << cuCimag(calc[i]);
    }

    return 0;
}

最后的答案是错误的,我还发现了其他一些我没有得到预期值的地方。

1) 我期望在以下代码行之后为“j”的所有元素生成一个复杂的 double 组 (0, 5i)。但是,我得到的都是 0。这是为什么?

j[i] = make_cuDoubleComplex(0, 5); 

2) 为什么我不能使用 cout 打印我的数组?下面显示的代码行给出以下错误:没有运算符“<<”匹配这些操作数。如何在不使用 printf 的情况下解决此问题?

cout << "\nJ = " << j[i];

3) GPU 函数“func”应该给出一个 (0, 10i) 的数组作为最终答案,给出如下随机值:

CALC = -1.#QNAN0
CALC = -1.#QNAN0
CALC = -9255963134931783100000000...000.. etc
CALC = -9255963134931783100000000...000.. etc

4) 对于我的实际研究,复数数组“j”将以 complex(double) 而非 cuDoubleComplex 的格式给出。我可以使用函数“func”对复杂(双)的“j”数组执行类似的操作吗?如果没有,我有什么选择?

我想我已经很好地解释了自己,但请随时提出任何后续问题。 C++ 和 CUDA 的新手所以很好 :D

最佳答案

在编写 CUDA 代码时,尤其是当您正在学习或遇到困难时(事情没有按您预期的方式工作),您应该始终这样做 cuda error checking在所有 CUDA API 调用和内核调用上。

我认为您的代码中实际上没有任何 CUDA 功能错误(干得好!),但值得指出。

您的大部分问题是由于您没有正确打印类型 cuDoubleComplex。您的 printf 语句指定了一个 float 格式参数 (%f) 但您没有传递一个 float 值(您传递的是一个 cuDoubleComplex 值)。那是行不通的,当您这样做时 printf 会表现得很奇怪,不会给出任何错误指示。

相反,尝试这样的事情:

printf("\nJ = %f, %f", cuCreal(j[i]), cuCimag(j[i])); 

这些函数(cuCrealcuCimag)返回 cuComplex 数的实部和虚部,并将它们作为适当的类型返回, floatdouble,在这种情况下,从 doublefloat 的隐式转换就可以了执行并可以由 printf 处理(虽然这不是很好的编程习惯——而是使用正确的 printf 格式说明符作为 double 值) .

如果您对两个 printf 语句都进行了更改,我认为您会得到预期的结果——至少我在运行您的代码时做到了。如果您仍然遇到垃圾,那么您的 CUDA GPU 可能无法正常工作,这里是执行我提到的 CUDA 错误检查的地方将帮助您发现问题所在。

关于您关于cout 的问题,答案大致等同于我对printf 的解释。 cout 不理解类型 cuDoubleComplex,因此会抛出错误。如果您想在不使用 printf 的情况下修复它,请将您的 cuDoubleComplex 转换为其单独的实部和虚部,由 floatdouble 表示,使用我在上面的 printf 语句中指出的转换函数。

关于您的最后一个问题,将您的 complex 数据转换为 cuDoubleComplex 类型应该不难。根据您在 cuComplex.h 中的实用程序编写一个转换函数来执行此操作。有一些后门方法可以解决这个问题,但它们不是好的编程习惯。

编辑:在回答后续问题时,当前发布的代码中还有两个错误。

  1. dev_jdev_calc 属于 cuDoubleComplex 类型,但您正在执行 cudaMalloccudaMemcpy 在这些数量上,就好像它们的大小是 double 一样。在下面的代码中,我将那些 sizeof(double) 条目更改为 sizeof(cuDoubleComplex)
  2. 对于 C 和 C++,您的索引总体上有点奇怪。通常索引从零开始。你有一个索引问题,最后一个元素没有得到正确的计算。我将所有索引更改为从零开始。

这里是对你的代码的修改,对我有用:

//#include <complex>  // not necessary for this code
#include <iostream>
#include <cmath>
//#include "cuda.h"  // not necessary when compiling with nvcc
#include "math.h"
#include "cuComplex.h"

#define n   5

using namespace std;

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
    if (code != cudaSuccess)
    {
        fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
        if (abort) exit(code);
    }
}

__global__ void func( double *s, cuDoubleComplex *j, cuDoubleComplex *calc ) {

    int tid = blockIdx.x;

    calc[tid] = cuCmul(j[tid], make_cuDoubleComplex(*s, 0));

}

int main( void ) {


    cuDoubleComplex calc[n+1], *dev_j, *dev_calc;
    double *dev_s, s[n] = { 2.0, 2.0, 2.0, 2.0, 2.0 };
    //complex<double> j[n+1]
    cuDoubleComplex j[n];

    for (int i = 0; i < n; i++) {
        j[i] = make_cuDoubleComplex(0, 5);
        cout << "\nJ cout = " << cuCreal(j[i]) << ", " << cuCimag(j[i]);
    }

    // allocate the memory on the GPU
    cudaMalloc( (void**)&dev_s, (n) * sizeof(double) );
    cudaMalloc( (void**)&dev_j, (n) * sizeof(cuDoubleComplex) );
    cudaMalloc( (void**)&dev_calc, (n) * sizeof(cuDoubleComplex) );

    cudaMemcpy( dev_s, s, (n) * sizeof(double), cudaMemcpyHostToDevice );
    cudaMemcpy( dev_j, j, (n) * sizeof(cuDoubleComplex), cudaMemcpyHostToDevice );

    func<<<n,1>>>( dev_s, dev_j, dev_calc );
    //kernel<<<1,1>>>(a_d);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaMemcpy(calc, dev_calc, (n) * sizeof(cuDoubleComplex), cudaMemcpyDeviceToHost) );

    //cudaMemcpy( calc, dev_calc, (n+1) * sizeof(double), cudaMemcpyDeviceToHost );

    for (int i = 0; i < n; i++) {
        cout << "\nCALC cout = " << cuCreal(calc[i]) << ", " << cuCimag(calc[i]);
    }

    return 0;
}

关于c++ - CUDA - 简单的复数乘法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17476978/

相关文章:

c - Thrust - 如何使用我的数组/数据 - 模型

c++ - 返回 *&object 时是否允许复制/移动省略?

c++ - 通过 const char * 构造函数将 false 转换为对象

c - 3D 矩阵求和 cuda

c++ - CUDA 函数仅适用于某些元素

c++ - IDCT矩阵的无分支生成?

c++ - 在cuda中声明共享内存的大小

c++ - 常量函数由非常量对象调用。为什么?

c++ - 从 Object<const T> 转换为 Object<t>

c++ - 64 位 linux 上的函数指针大小