sparse-matrix - GPU 或 CPU 上的稀疏矩阵乘法?

标签 sparse-matrix gpu

你怎么认为?什么会更快,多快:在 GPU 或 CPU(多线程)上进行稀疏矩阵 (CSR) 乘法(带有向量)?

最佳答案

这取决于矩阵的大小和需要执行的迭代次数。这是因为您需要将矩阵数据从 CPU 内存复制到 GPU 内存,并将结果从 GPU 复制回 CPU。如果您只想在矩阵上执行一次迭代,那么在 CPU 上执行它总是比在 GPU 上执行它更好。此外,GPU 受到启动时间的影响。因此,如果您要执行更多迭代,则选择 GPU,否则我的选择将是 CPU。同样,由于数据复制,矩阵的大小也会影响性能。

关于sparse-matrix - GPU 或 CPU 上的稀疏矩阵乘法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3438826/

相关文章:

nvidia - 如何通过 Vulkan 使用 Nvidia 的 Tensor Core

cuda - 在 GPU 架构中,所有非事件扭曲的数据存储在哪里?

c++ - 选择用于 CUDA 调试的设备

R - 按列名将大表转换为矩阵

c++ - 如何迭代 Eigen 中稀疏矩阵的行和列?

python - 使用Python进行大型交易数据集的市场购物篮分析

python - 在 Python 中从大型数据帧创建稀疏矩阵

glmnet : NA/NaN/Inf in foreign function call 中的 R 错误

python - PyTorch:用 GPU 训练比用 CPU 训练同样的东西会产生更严重的错误

opencl - GPU中缓存未命中的变化