sparse-matrix - GPU 或 CPU 上的稀疏矩阵乘法？

你怎么认为？什么会更快，多快:在 GPU 或 CPU(多线程)上进行稀疏矩阵 (CSR) 乘法(带有向量)？

最佳答案

这取决于矩阵的大小和需要执行的迭代次数。这是因为您需要将矩阵数据从 CPU 内存复制到 GPU 内存，并将结果从 GPU 复制回 CPU。如果您只想在矩阵上执行一次迭代，那么在 CPU 上执行它总是比在 GPU 上执行它更好。此外，GPU 受到启动时间的影响。因此，如果您要执行更多迭代，则选择 GPU，否则我的选择将是 CPU。同样，由于数据复制，矩阵的大小也会影响性能。

关于sparse-matrix - GPU 或 CPU 上的稀疏矩阵乘法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3438826/

上一篇：asp.net-mvc - 使用默认模型 Binder 映射集合的约定是什么？

下一篇：.net - emum 的多个描述属性

cuda - 在 GPU 架构中，所有非事件扭曲的数据存储在哪里？

c++ - 选择用于 CUDA 调试的设备

R - 按列名将大表转换为矩阵

c++ - 如何迭代 Eigen 中稀疏矩阵的行和列？

python - 使用Python进行大型交易数据集的市场购物篮分析

python - 在 Python 中从大型数据帧创建稀疏矩阵

glmnet : NA/NaN/Inf in foreign function call 中的 R 错误

python - PyTorch:用 GPU 训练比用 CPU 训练同样的东西会产生更严重的错误

opencl - GPU中缓存未命中的变化