cuda - 简单的 CUBLAS 矩阵乘法示例？

标签 cuda gpu matrix-multiplication cublas

我正在为 CUBLAS 寻找一个非常简单的矩阵乘法示例，它可以使用高性能 GPU 操作将 M 乘以 N 并将结果放在 P 中以用于以下代码:

float M[500][500], N[500][500], P[500][500];
for(int i = 0; i < Width; i++){
    for(int j = 0; j < Width; j++)
    {
        M[i][j] = 500;
        N[i][j] = 500;
        P[i][j] = 0;
    }
}

到目前为止，我发现使用 CUBLAS 进行任何类型的矩阵乘法的大多数代码(似乎？)都过于复杂。

我正在尝试设计一个基础实验室，学生可以在其中比较 GPU 上的矩阵乘法与 CPU 上的矩阵乘法的性能，大概是 GPU 上的性能提高。

最佳答案

SDK 包含说明 CUBLAS 使用的 matrixMul。有关更简单的示例，请参阅 CUBLAS manual第 1.3 节。

matrixMul 示例还显示了一个自定义内核，当然它的性能不如 CUBLAS。

关于cuda - 简单的 CUBLAS 矩阵乘法示例？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7636880/

上一篇：javascript - 当位置不是整数时平滑过渡

下一篇：spring - 是否可以根据 HttpStatus 状态码在 spring-retry 中设置 RetryPolicy？

相关文章：

algorithm - 使用分而治之的矩阵乘法，时间复杂度

gpu - `exp` 的计算成本如何？

C++ - 将具有不同维度的不同矩阵集相乘的函数

cuda - 具有相同签名的函数

c++ - 如何在 CUDA 中实现子矩阵的接口(interface)？

image - cuda 中的 Sobel 过滤器(无法显示完整图像)

gpu - 使用 VMWare Fusion 访问 GPU

c - 使用分治法的矩阵乘法

cuda - nVIDIA 驱动程序如何将设备索引分配给 GPU？

cuda - 主 CUDA 上下文何时被运行时 API 销毁？