parallel-processing - OpenCL:工作组概念

标签 parallel-processing opencl

我不太明白 OpenCL 中工作组的目的。

我知道它们是一组并行执行的工作项(据说是硬件线程)。

但是,为什么需要更粗的分割?只有线程网格(事实上,只有一个 W-G)不是可以吗?

工作组是否应该准确映射到物理核心?例如,据说 TESLA c1060 卡有 240 个内核。工作组将如何映射到此?

此外,据我所知,由于内存栅栏,工作组内的工作项可以同步。工作组可以同步还是甚至需要?他们是通过共享内存相互交谈还是仅针对工作项目(不确定这一点)?

最佳答案

我认为这里的部分困惑归结为术语。 GPU 人常说的核心,并不是真的,GPU 人常说的线程只是某种意义上的。

磁芯
在 GPU 营销术语中,内核可能指 CPU 内核之类的东西,也可能指 SIMD 单元的单 channel - 实际上,单核 x86 CPU 将是这种更简单类型的四个内核。这就是 GPU 核心数可以如此之高的原因。这不是一个真正的公平比较,你必须除以 16、32 或类似的数字才能获得更直接可比的核心数。

工作项目
OpenCL 中的每个工作项在其控制流和内存模型方面都是一个线程。硬件可以在单个线程上运行多个工作项,您可以通过想象四个 OpenCL 工作项在 SSE 向量的不同 channel 上运行来轻松想象这一点。实现这一点的只是编译器技巧,而在 GPU 上,它往往是编译器技巧和硬件辅助的混合体。 OpenCL 2.0 实际上通过子组公开了这个底层硬件线程概念,因此还有另一个层次结构需要处理。

工作组
每个工作组都包含一组工作项,这些工作项必须能够在存在障碍的情况下取得进展。实际上,这意味着它是一个集合,其所有状态都能够同时存在,这样当遇到同步原语时,它们之间的切换开销很小,并且可以保证切换是可能的。

工作组必须映射到单个计算单元,这实际上意味着整个工作组适合单个实体,CPU 人们将其称为核心 - CUDA 将其称为多处理器(取决于世代),AMD 称为计算单元和其他人有不同的名字。这种执行的局部性导致更有效的同步,但这也意味着工作项集可以访问本地构造的内存单元。它们应该经常通信,否则不会使用屏障,并且为了使这种通信有效,可能会有本地缓存​​(类似于 CPU L1)或暂存器内存(OpenCL 中的本地内存)。

只要使用屏障,工作组就可以在内部、工作项之间、使用本地内存或使用全局内存进行同步。工作组不能相互同步,并且标准不保证工作组相对于彼此的前进进度,这使得有效地构建可移植的锁定和同步原语变得不可能。

这在很大程度上是由于历史而不是设计。长期以来,GPU 硬件一直被设计为构建矢量线程,并以最佳处理三角形的方式将它们分配给执行单元。 OpenCL 不会将硬件泛化为对其他事物有用,但不会泛化到使实现效率低下的程度。

关于parallel-processing - OpenCL:工作组概念,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26804153/

相关文章:

python - 使用 PyCUDA 后无输出

c++ - Open CL 在数据并行内核上运行并行任务

java - Map-Reduce 中的二次排序

python - 如何使用 PyTorch 并行化 CNN 对图像的评估

来自过剩的 OpenGL 上下文

opencl - opencl 中的 CL_PLATFORM_NOT_FOUND_KHR

kernel - 杀死 OpenCL 内核

c++ - 对 float 求和的最佳 OpenCL 2 内核是什么?

.net - 简单线程速成类?

linux - 如何在 Linux 集群上的 R 中使用 Rmpi​​ 来增加 DEoptim 可用的内核?