c++ - CUDA 中的 3D 元素矩阵乘法？

我有一个使用以下内核的 2D 矩阵乘法程序:

__global__ void multKernel(int *a, int *b, int *c, int N)
{
    int column  = threadIdx.x + blockDim.x * blockIdx.x;
    int row     = threadIdx.y + blockDim.y * blockIdx.y;

    int index = row * N + column;

    if(column < N && row < N)
    {
        c[index] = a[index] * b[index];
    }
}

现在，我想创建一个 3D 矩阵乘法内核，但我很难找到如何创建一个的示例(而且，我不擅长阅读数学公式，这是我需要改进的地方) .

我知道 GPU 示例将涉及使用

threadIdx.z

等等，但我有点不知道该怎么做。

有人能给我指出一些公式或示例代码的正确方向吗？或者甚至提供一个基本的例子？我认为我有一个 CPU 示例，应该可以工作。

void matrixMult3D(int *a, int *b, int *c, int *z, int N)
{
    int index;

    for(int column = 0; column < N; column++)
    {
        for(int row = 0; row < N; row++)
        {
            for (int z = 0; z < N; z++)
            {
                index = row * N + column + z;
                c[index] = a[index] * b[index] * z[index];
            }
        }
    }
}

我至少走在正确的轨道上吗？

最佳答案

因为您实际上所做的只是一个元素级乘积(我犹豫将其称为 Hadamard Product 因为它不是为超矩阵 AFAIK 定义的)，所以您不需要做任何与最简单的不同的事情内核代码的一维版本。像这样的事情:

template<int ndim>
__global__ void multKernel(int *a, int *b, int *c, int *z, int N)
{
    int idx  = threadIdx.x + blockDim.x * blockIdx.x;
    int stride = blockDim.x * gridDim.x;

    int idxmax = 1;
    #pragma unroll
    for(int i=0; i < ndim; i++) {
        idxmax *= N;
    }
    for(; idx < idxmax; idx+=stride) {
       c[index] = a[index] * b[index] * z[index];
    }
}

[免责声明:在浏览器中编写的代码，从未编译或运行。使用风险自担]

适用于任意维度的数组，维度为 N (ndim=1)、N*N (ndim=2)、N*N*N (ndim=3) 等。

关于c++ - CUDA 中的 3D 元素矩阵乘法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20481390/

c++ - CUDA 中的 3D 元素矩阵乘法？

上一篇：C++:处理这种多重继承的最佳方法是什么？

下一篇：将列转换为 2D vector 的 C++ 文本文件