我正在为 CUBLAS 寻找一个非常简单的矩阵乘法示例,它可以使用高性能 GPU 操作将 M 乘以 N 并将结果放在 P 中以用于以下代码:
float M[500][500], N[500][500], P[500][500];
for(int i = 0; i < Width; i++){
for(int j = 0; j < Width; j++)
{
M[i][j] = 500;
N[i][j] = 500;
P[i][j] = 0;
}
}
到目前为止,我发现使用 CUBLAS 进行任何类型的矩阵乘法的大多数代码(似乎?)都过于复杂。
我正在尝试设计一个基础实验室,学生可以在其中比较 GPU 上的矩阵乘法与 CPU 上的矩阵乘法的性能,大概是 GPU 上的性能提高。
最佳答案
SDK 包含说明 CUBLAS 使用的 matrixMul。有关更简单的示例,请参阅 CUBLAS manual第 1.3 节。
matrixMul 示例还显示了一个自定义内核,当然它的性能不如 CUBLAS。
关于cuda - 简单的 CUBLAS 矩阵乘法示例?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7636880/