如何使用 sse 内在函数获取浮点 vector 的总和元素(减少)?
简单的串口代码:
void(float *input, float &result, unsigned int NumElems)
{
result = 0;
for(auto i=0; i<NumElems; ++i)
result += input[i];
}
最佳答案
通常您会在循环中生成 4 个部分和,然后在循环后对 4 个元素进行水平求和,例如
#include <cassert>
#include <cstdint>
#include <emmintrin.h>
float vsum(const float *a, int n)
{
float sum;
__m128 vsum = _mm_set1_ps(0.0f);
assert((n & 3) == 0);
assert(((uintptr_t)a & 15) == 0);
for (int i = 0; i < n; i += 4)
{
__m128 v = _mm_load_ps(&a[i]);
vsum = _mm_add_ps(vsum, v);
}
vsum = _mm_hadd_ps(vsum, vsum);
vsum = _mm_hadd_ps(vsum, vsum);
_mm_store_ss(&sum, vsum);
return sum;
}
注意:对于上面的例子,a
必须是16字节对齐,n
必须是4的倍数。如果a
的对齐不能保证则使用 _mm_loadu_ps
而不是 _mm_load_ps
。如果不能保证 n
是 4 的倍数,则在函数末尾添加标量循环以累积所有剩余元素。
关于c++ - SSE减少浮点 vector ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17761154/