c++ - 是否可以使用纹理内存加速矩阵乘法?

标签 c++ matrix cuda multiplication

我正在学习 cuda。

是否可以使用纹理内存来加速像矩阵乘法这样简单的事情?空间局部性是我的平铺的一个很好的属性,但使用纹理内存的开销是否会超过它?

我似乎找不到任何使用纹理内存的矩阵乘法实现。

最佳答案

矩阵乘法可以通过多种方式实现。

与仅使用全局内存的矩阵乘法的简单实现相比,是的,使用纹理内存可以加快它的速度。

与使用共享内存的更好编写的矩阵乘法版本相比,纹理内存不太可能提供太多或任何好处。

如果您想从 CUDA 矩阵乘法中获得最佳性能,您应该使用 CUBLAS。不要编写自己的矩阵乘法代码。

关于c++ - 是否可以使用纹理内存加速矩阵乘法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29938700/

相关文章:

c++ - 使用线性代数或 BFS 求图的直径

arrays - MATLAB 根据另一列的值提取数组的列

Python:TypeError:列表索引必须是整数,而不是 str

cuda - 不同硬件的编程模型

cuda - 从内核调用内核

c++ - 控制台应用程序中的回显关闭问题 (Linux)

c++ - 为什么无限递归会导致段错误

c++ - 错误 : invalid conversion from 'char' to 'const char*'

python - 用python中的另一个向量求和零和一

CUDA __global__ 函数递归