c++ - SSE减少浮点 vector

标签 c++ sum sse simd reduction

如何使用 sse 内在函数获取浮点 vector 的总和元素(减少)?

简单的串口代码:

void(float *input, float &result, unsigned int NumElems)
{
     result = 0;
     for(auto i=0; i<NumElems; ++i)
         result += input[i];
}

最佳答案

通常您会在循环中生成 4 个部分和,然后在循环后对 4 个元素进行水平求和,例如

#include <cassert>
#include <cstdint>
#include <emmintrin.h>

float vsum(const float *a, int n)
{
    float sum;
    __m128 vsum = _mm_set1_ps(0.0f);
    assert((n & 3) == 0);
    assert(((uintptr_t)a & 15) == 0);
    for (int i = 0; i < n; i += 4)
    {
        __m128 v = _mm_load_ps(&a[i]);
        vsum = _mm_add_ps(vsum, v);
    }
    vsum = _mm_hadd_ps(vsum, vsum);
    vsum = _mm_hadd_ps(vsum, vsum);
    _mm_store_ss(&sum, vsum);
    return sum;
}

注意:对于上面的例子,a必须是16字节对齐,n必须是4的倍数。如果a的对齐不能保证则使用 _mm_loadu_ps 而不是 _mm_load_ps。如果不能保证 n 是 4 的倍数,则在函数末尾添加标量循环以累积所有剩余元素。

关于c++ - SSE减少浮点 vector ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17761154/

相关文章:

c++ - 编写可移植的 SSE/AVX 版本的 std::copysign

c++ - SIMD 程序运行缓慢

c++ - matlab在opencv中查找函数实现?

c++ - C++ 中的迭代加深搜索

python - 对给定列表 Python 的给定范围内的所有数字求和

c++ - 修改函数以使用 SSE 内在函数

c++ - 从用户定义的文本文件中读取和打印字符

c++ - 使用 fscanf 读取双倍

jQuery,计算文本框值的总和

python - python 对包含字符串和整数的列表中的元素求和,并将答案放入另一个列表中