c - CUDA 中的矩阵运算

标签 c cuda

在 CUDA 中组织矩阵运算的最佳方式是什么(就性能而言)? 比如我要计算C * C^(-1) * B^T + CCB是矩阵。

我应该为乘法、转置等编写单独的函数,还是为整个表达式编写一个函数?

哪种方式最快?

最佳答案

我建议您使用 CUBLAS 库。它通常比您自己编写的所有内容都更快、更可靠。此外,它的 API 类似于数值线性代数的标准库 BLAS 库。

关于c - CUDA 中的矩阵运算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5337326/

相关文章:

c - 段错误问题(C)

c - LLVM 能代表什么 C 不能?

cuda - CUDA环境中GPU上的可视化

cuda - 多次调用 get_global_id() 还是将结果保存在局部变量中?

c++ - 将并行 CUDA 程序转换为顺序运行

c - printw() 和 mvwprintw() 不打印

c++ - 如何在一个 SQL 查询中更新和选择

c - 函数调用没有返回到正确的位置

visual-studio-2010 - CUDA __syncthreads() 编译正常,但带有红色下划线

Cuda 多个 GPU : All GPUs the same model?