c++ - 256 位 AVX vector 中 32 位 float 的水平和

<分区>

我有两个 float 组，我想使用 SSE 和 AVX 以尽可能低的延迟计算点积。我知道 float 有一个 256 位的内在点积，但我已经读到它比下面的技术慢:(https://stackoverflow.com/a/4121295/997112)。

我已经完成了大部分工作， vector temp_sums 包含了所有的和，我只需要在结束。

#include "xmmintrin.h"
#include "immintrin.h"

int main(){
    const int num_elements_in_array = 16;
    __declspec(align(32)) float x[num_elements_in_array];
    __declspec(align(32)) float y[num_elements_in_array];

    x[0] = 2;   x[1] = 2;   x[2] = 2;   x[3] = 2;
    x[4] = 2;   x[5] = 2;   x[6] = 2;   x[7] = 2;
    x[8] = 2;   x[9] = 2;   x[10] = 2;  x[11] = 2;
    x[12] = 2;  x[13] = 2;  x[14] = 2;  x[15] = 2;

    y[0] = 3;   y[1] = 3;   y[2] = 3;   y[3] = 3;
    y[4] = 3;   y[5] = 3;   y[6] = 3;   y[7] = 3;
    y[8] = 3;   y[9] = 3;   y[10] = 3;  y[11] = 3;
    y[12] = 3;  y[13] = 3;  y[14] = 3;  y[15] = 3;

    __m256 a;
    __m256 b;
    __m256 temp_products;   
    __m256 temp_sum = _mm256_setzero_ps();

    unsigned short j = 0;
    const int sse_data_size = 32;
    int num_values_to_process = sse_data_size/sizeof(float);

    while(j < num_elements_in_array){
        a = _mm256_load_ps(x+j);
        b = _mm256_load_ps(y+j);

        temp_products = _mm256_mul_ps(b, a);
        temp_sum = _mm256_add_ps(temp_sum, temp_products);

        j = j + num_values_to_process;
    }

    //Need to "process" temp_sum as a final value here

}

我担心我需要的 256 位内部函数在 AVX 1 之前不可用。

最佳答案

我建议尽可能使用 128 位 AVX 指令。它将减少一次跨域洗牌的延迟(在 Intel Sandy/Ivy Bridge 上为 2 个周期)并提高在 128 位执行单元(目前是 AMD Bulldozer、Piledriver、Steamroller 和 Jaguar)上运行 AVX 指令的 CPU 的效率:

static inline float _mm256_reduce_add_ps(__m256 x) {
    /* ( x3+x7, x2+x6, x1+x5, x0+x4 ) */
    const __m128 x128 = _mm_add_ps(_mm256_extractf128_ps(x, 1), _mm256_castps256_ps128(x));
    /* ( -, -, x1+x3+x5+x7, x0+x2+x4+x6 ) */
    const __m128 x64 = _mm_add_ps(x128, _mm_movehl_ps(x128, x128));
    /* ( -, -, -, x0+x1+x2+x3+x4+x5+x6+x7 ) */
    const __m128 x32 = _mm_add_ss(x64, _mm_shuffle_ps(x64, x64, 0x55));
    /* Conversion to float is a no-op on x86-64 */
    return _mm_cvtss_f32(x32);
}

关于c++ - 256 位 AVX vector 中 32 位 float 的水平和，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23189488/

上一篇：c++ - 随机数生成器不给我一个随机数

下一篇：c++ - 减少for循环的时间

相关文章：

python - 向量化像素化分配，用于分割蒙版的颜色映射

assembly - 如何将浮点常量值移动到 xmm 寄存器中？

gcc - 如何强制gcc使用所有SSE(或AVX)寄存器？

c++ - 二进制 * 运算符未找到

c++ - 在 C++ 中跨程序共享指针

c++ - 参数与相同类型的参数不兼容

c++ - std::initializer_list 的类型推断

r - 向矩阵的所有行添加一个向量

r - 加快重复函数调用的速度

c++ - 有符号零的最小值和最大值