memory - 如何在 OpenCL 中使用固定内存/映射内存

标签 memory opencl gpu gpgpu data-transfer

为了减少我的应用程序从主机到设备的传输时间,我想使用固定内存。 NVIDIA's best practices guide建议使用以下代码映射缓冲区并写入数据:

cDataIn = (unsigned char*)clEnqueueMapBuffer(cqCommandQue, cmPinnedBufIn, CL_TRUE,CL_MAP_WRITE, 0, memSize, 0, NULL, NULL, NULL);

for(unsigned int i = 0; i < memSize; i++) 
{ 
    cDataIn[i] = (unsigned char)(i & 0xff); 
}

clEnqueueWriteBuffer(cqCommandQue, cmDevBufIn, CL_FALSE, 0, 
szBuffBytes, cDataIn, 0, NULL, NULL);

Intel's optimization guide建议使用对 clEnqueueMapBuffer 和 clEnqueueUnmapBuffer 的调用,而不是对 clEnqueueReadBuffer 或 clEnqueueWriteBuffer 的调用。

使用固定内存/映射内存的正确方法是什么?是否需要使用 enqueueWriteBuffer 写入数据或 enqueueMapBuffer 是否足够?

另外,CL_MEM_ALLOC_HOST_PTR 和 CL_MEM_USE_HOST_PTR 有什么区别?

最佳答案

这是一个有趣的话题,很少有人详细介绍。 我将尝试准确定义它的工作原理。

固定内存是指除了在设备中之外,还存在于主机中的内存,因此可以在这两个内存之间进行 DMA 写入。提高复印性能。 这就是为什么它需要 CL_MEM_ALLOC_HOST_PTR 在缓冲区创建参数中。

另一方面,CL_MEM_USE_HOST_PTR 将使用主机指针来创建缓冲区,规范不清楚这是否可以是固定内存。但一般来说,不应该以这种方式创建固定内存,因为主机指针没有被 OpenCL API 保留,并且不清楚它在内存中的位置。


关于 map /阅读问题。 两个都可以。他们会给出同样的表现。 这两种技术的区别在于:

  • Map/Unmap:你需要在写/读之前先映射,然后再取消映射。这样可以确保数据的一致性。这些是 API 调用,需要时间来完成并且是异步的。好处是,除了缓冲区对象之外,您不需要持有任何其他东西。
  • For Map+Read/Write:在创建内存区时,你需要做一个 Map 并保存指针值。然后,在销毁缓冲区时,您需要先 Unmap 然后销毁它。你需要一直持有 buffer+Mapped_Buffer 。好消息是您现在可以 clEnqueueRead/Write 到该映射指针。 API 将等待固定数据保持一致,然后认为已完成。它更易于使用,因为它就像一次完成 map +取消 map 。

读/写模式更易于使用,特别适用于重复读取,但不如手动映射选项那样通用,因为您无法编写 只读 映射,也无法读取只写 映射。但对于一般用途,读取的变量永远不会被写入,反之亦然。


我的理解是Intel的推荐,指的是“使用Map,不是普通的Read/Write”,而不是“使用Map时,不要使用Read/Write over Mapped指针”

您是否通过英特尔硬件检查过此 nVIDIA 建议?我认为它应该可以工作,但是我不知道该操作是否确实是最佳的(如在 AMD 或 nVIDIA HW 中)。

关于memory - 如何在 OpenCL 中使用固定内存/映射内存,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24158909/

相关文章:

c++ - 如何避免 OpenCL 中的常量内存复制

python - pyopencl array sum 添加数组

python - Tensorflow GPU内存报错try-except not catching the error

c++ - 在类的构造函数中初始化映射时如何避免内存泄漏?

c - 有什么方法可以防止应用程序在堆损坏时崩溃? - C 编程语言

Javascript 类与对象,优缺点?

cuda - RTX 2080 Ti cuda-memcheck 在创建 Cublas 上下文开始时遇到错误

memory - GPU PoolAllocator 爆 CPU 内存

c++ - boost::compute 是否支持 const 修饰符?

cuda - 通过brew和dmg安装cuda