c - 进行最终还原的策略

标签 c arrays opencl reduction

我正在尝试实现一个 OpenCL 版本来减少 float 组。

为了实现它,我采用了以下在网络上找到的代码片段:

__kernel void sumGPU ( __global const double *input, 
                       __global double *partialSums,
               __local double *localSums)
 {
  uint local_id = get_local_id(0);
  uint group_size = get_local_size(0);

  // Copy from global memory to local memory
  localSums[local_id] = input[get_global_id(0)];

  // Loop for computing localSums
  for (uint stride = group_size/2; stride>0; stride /=2)
     {
      // Waiting for each 2x2 addition into given workgroup
      barrier(CLK_LOCAL_MEM_FENCE);

      // Divide WorkGroup into 2 parts and add elements 2 by 2
      // between local_id and local_id + stride
      if (local_id < stride)
        localSums[local_id] += localSums[local_id + stride];
     }

  // Write result into partialSums[nWorkGroups]
  if (local_id == 0)
    partialSums[get_group_id(0)] = localSums[0];
 }                  

此内核代码运行良好,但我想通过将每个工作组的所有部分和相加来计算最终总和。 目前,我通过一个简单的循环和迭代 nWorkGroups 由 CPU 完成最终求和的这一步。

我还看到了另一个具有原子函数的解决方案,但它似乎是为 int 而不是 float 实现的。我认为只有 CUDA 提供了 float 的原子函数。

我还看到我可以使用另一个内核代码来执行此求和操作,但我想避免使用此解决方案以保持简单可读的源代码。也许我离不开这个解决方案......

我必须告诉你,我在 Radeon HD 7970 Tahiti 3GB 上使用 OpenCL 1.2(由 clinfo 返回)(我认为我的卡不支持 OpenCL 2.0)。

更一般地说,我想获得有关使用我的显卡型号和 OpenCL 1.2 执行最后的最终求和的最简单方法的建议。

最佳答案

如果该 float 的数量级小于 exa scale,则:

代替

if (local_id == 0)
  partialSums[get_group_id(0)] = localSums[0];

你可以使用

if (local_id == 0)
{
    if(strategy==ATOMIC)
    {
        long integer_part=getIntegerPart(localSums[0]);
        atom_add (&totalSumIntegerPart[0] ,integer_part);
        long float_part=1000000*getFloatPart(localSums[0]);
         // 1000000 for saving meaningful 7 digits as integer
        atom_add (&totalSumFloatPart[0] ,float_part);
    }
}

这会溢出 float 部分,所以当你在另一个内核中将它除以 1000000 时,它可能有超过 1000000 的值所以你得到它的整数部分并将它添加到实整数部分:

   float value=0;
   if(strategy==ATOMIC)
   {
       float float_part=getFloatPart_(totalSumFloatPart[0]);
       float integer_part=getIntegerPart_(totalSumFloatPart[0])
       + totalSumIntegerPart[0];
       value=integer_part+float_part;
   }

仅仅几个原子操作不应该对整个内核时间有效。

其中一些 get___part 可以使用 floor 和类似函数轻松编写。有些需要除以 1M。

关于c - 进行最终还原的策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36879187/

相关文章:

数组上的java递归

c - Opencl 全局变量在线程中具有不同的值,OpenCL KERNEL

c++ - 如何在 OSX 上使用 glfw3 在 OpenGL 和 OpenCL 之间创建共享上下文?

c - 有没有办法解决 C 中的单个位?

c - 在字符串中使用下划线

c - 当传递给没有参数声明的函数时,参数去哪里

java - 如何让一个循环重复另一个循环?

c - 使用文件结构 c 将数据从一个程序移动到另一个程序

ios - Apple Metal Matrix 乘法基准测试结果不一致

C 命名文件的日期