在 CUDA 中组织矩阵运算的最佳方式是什么(就性能而言)?
比如我要计算C * C^(-1) * B^T + C
,C
和B
是矩阵。
我应该为乘法、转置等编写单独的函数,还是为整个表达式编写一个函数?
哪种方式最快?
最佳答案
我建议您使用 CUBLAS 库。它通常比您自己编写的所有内容都更快、更可靠。此外,它的 API 类似于数值线性代数的标准库 BLAS 库。
关于c - CUDA 中的矩阵运算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5337326/