cuda - 仅对向量 CUDA/THRUST 的正元素求和

标签 cuda gpgpu thrust gpu

如果需要仅对向量的正浮点元素求和，我想使用 Thrust(因为我的大多数方法是使用推力数据类型实现的)或 C CUDA。数据最初未排序。我最初的尝试非常糟糕:基本上，复制向量，对其进行排序，通过将其传递给内核来找到零交叉，该内核比较连续的成对值并写入与零交叉匹配的值。基本上在排序之后(我用 Thrust 进行排序)...

int i = blockIdx.x * blockDim.x + threadIdx.x;
if (i < n - 1) {
  float a = vector[i];
  float b = vector[i + 1];
  if (a >= 0.0 && b < 0.0)
    answer = i + 1;
}

这真的很愚蠢，很多线程匹配条件，太多的读取，分支分歧等等。所以，它完全失败了，每次调用都会对相同的数据给出不同的结果，等等。

我还没有找到在 Thrust 中实现这一点的好方法，这正是我更喜欢的。排序后我不知道如何找到零交叉点。关于这里的起点有什么建议吗？一个实际工作的简单 CUDA C 实现也很好。

最佳答案

要仅对正值求和，您不需要对初始值进行排序，请使用推力::transform_reduce:

template<typename T>
struct positive_value : public thrust::unary_function<T,T>
{
   __host__ __device__ T operator()(const T &x) const
   {
     return x < T(0) ? 0  : x;
   }
};

float result = thrust::transform_reduce(data.begin(), data.end(),
                                    positive_value<float>(),
                                    0,
                                    thrust::plus<float>());

关于cuda - 仅对向量 CUDA/THRUST 的正元素求和，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19795846/

上一篇：symfony - 尝试使用 Symfony 组件并遇到命名空间问题

下一篇：r - 合并存储在列表中的数据框

相关文章：

c++ - cuda调用在析构函数中失败

cuda - 为什么 cuFFT 性能会因输入重叠而受到影响？

c++ - 从 CUDA 库调用 cusolverDnDgeqrf 时的状态 : execution failed,

c++ - 从主 CUDA 声明设备变量

cuda - 为 CUDA 编译器驱动程序禁用二进制缓存

c++ - 如何从两个数组中生成一对 vector ，然后使用 CUDA/Thrust 按该对的第一个元素排序？

cuda - 单个 CUDA 内核中可以启动的最大线程数

c - cudaSetDevice() 编号在进程间是否一致？

并发内核启动示例 - CUDA

c++ - 用作推力迭代器 CUDA 的参数