c - 使用 CUDA + MPI 的矩阵乘法

标签 c cuda mpi

我正在研究集群环境中使用 mpi 进行通信的 gpu。
为了比较提速,我认为在创建时:

仅用于 GPU 的矩阵乘法,可以。
现在只有 CPU MatrixMulti,可以。
但是我找不到一个很好的 CUDA + MPI 矩阵乘法实现。

有谁能告诉我在哪里可以找到它吗?或者建议一种实现方式。

最佳答案

MTL4 矩阵模板库可以是一个很好的起点。现在 MTL4 有多核、DMM,我们几乎完成了完整的 GPU 实现。 Peter 和我一直在谈论分布式 GPU 算法,但由于目前我们的重点是由 PDE 求解器驱动的,因此分布式 GPU 算法很难与强大的 DMM 竞争。

不过,我正在研究一个新的地球物理学/医学成像求解器集,它更有利于分布式 GPU 计算,因为数据集更适中,而且 GPU 的视频功能也很有用。

首先,请查看 MTL4 tutorial

关于c - 使用 CUDA + MPI 的矩阵乘法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5972033/

相关文章:

c - Strtok() 随机返回 NULL

cuda - cuModuleGetFunction 不接受简单的内核名称,仅接受 .ptx 文件中的 ".entry"-tags

c - 简单 MPI 发送/接收程序中的行为不明确

parallel-processing - 根据标志对 mpi 进程进行分组

c - switch 语句第一行的归因在 gcc 中出错

c++ - N*(connect + send + close) vs (Nagle disable + connect + N*send + close),N > 1

cuda - OpenCL get_local_id() 的成本

c++ - 使用 Thrust 按键组合两个列表

linux - 打开 MPI 虚拟定时器已过期

c++ - 在 Linux 上跟踪 libc 和系统调用函数调用?