CUDA:HtoD 和 DtoH 带宽之间的差异

标签 cuda bandwidth

另一个与带宽相关的问题。我预计设备到主机带宽的图和主机到设备的图是相似的，但我发现两者之间存在显着差异。考虑到两者都走同一条路线，所以有效带宽应该是一样的，不是吗？测试台由两个插槽上的 12 个 Intel Westmere CPU、4 个带有 4 个 PCIe Gen2 Express 插槽的 Tesla C2050 GPU 组成。使用来自 NVidia 代码示例的带宽测试程序。 enter image description here

从主机和设备执行 cudamemCpy 的开销是多少？

最佳答案

首先，我想说这两条曲线是相似的。老实说，我从未在我使用过的任何系统上看到过对称 PCI-e 带宽——包括 CUDA 和图形 (OpenGL/D3D) 测试，所以我不认为这是什么(尤其是这种微小的差异) ) 这应该与您有关。

与您的其他 PCI-e 带宽问题一样，答案是相似的——驱动程序可能对不同类型和大小的传输使用不同的策略，试图获得尽可能高的吞吐量。

实际吞吐量取决于许多因素，包括 GPU 的类型，尤其是所使用的主机芯片组。

关于CUDA:HtoD 和 DtoH 带宽之间的差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7029940/

上一篇：c - 区分管道上的 stdout 和 stderr

下一篇：gfortran - gfortran 和 g95 是否仍受支持？

相关文章：

c 一个数组到另一个数组的大小

size - 某些字符是否比其他字符占用更多字节？

python - 如何调整系统参数以使 numpy 的 load() 和 save() 实现 AWS HDD 卷的最大带宽？

python - OpenStack中子带宽限制方法

algorithm - 如何计算将一个排序顺序转换为另一个排序顺序的绝对最小更改量？

CUDA C 代码上的 C++ 关键字

c - 用cuda替换c for循环

cuda - 将 CUDA 内核与 Numbapro api 结合使用时出现 NVVM_ERROR_INVALID_OPTION

c++ - CUDA 和模板 : specialization declaration needed?

linux - tc类ceil继承