c++ - 快速将 2 个 double 数组交织成具有 2 个 float 和 1 个 int(循环不变)成员的结构数组,并使用 SIMD double->float 转换?

标签 c++ x86 simd intrinsics avx

我有一段代码是在 x86 处理器上运行的 C++ 应用程序的瓶颈,我们从两个数组中获取 double 值,转换为 float 并存储在结构数组中。这是一个瓶颈的原因是它被调用时有非常大的循环,或者被调用了数千次。

是否有使用 SIMD Intrinsics 执行此复制和强制转换操作的更快方法?我看过this answer on faster memcpy但没有解决类型转换问题。

简单的 C++ 循环情况如下所示

        int _iNum;
        const unsigned int _uiDefaultOffset; // a constant 

        double * pInputValues1; // array of double values, count = _iNum;
        double * pInputValues2; 

        MyStruct * pOutput;    // array of outputs defined as
        // struct MyStruct 
        // { 
        //    float O1;
        //    float O2;
        //    unsigned int Offset;
        // };

        for (int i = 0; i < _iNum; ++i)
        {
            _pPoints[i].O1 = static_cast<float>(pInputValues1[i]);
            _pPoints[i].O2 = static_cast<float>(pInputValues2[i]);
            _pPoints[i].Offset = _uiDefaultOffset;
        }

注意:结构格式为 [Float,Float,Int](24 字节)但我们可以(如果它有助于提高性能)添加一个额外的4 字节填充使其成为 32 字节。

最佳答案

这是对 SSE4.1 的尝试,没有 AVX(这样做比较棘手,到目前为止我想出更多的混洗),并使用 12 字节/点格式:(未测试)

void test3(MyStruct * _pPoints, double * pInputValues1, double * pInputValues2) {
        // struct MyStruct 
        // { 
        //    float O1;
        //    float O2;
        //    unsigned int Offset;
        // };
    __m128 offset = _mm_castsi128_ps(_mm_cvtsi32_si128(_uiDefaultOffset));
    int i;
    for (i = 0; i < _iNum - 2; i += 2)
    {
        // read inputs and convert to float
        __m128d inA = _mm_loadu_pd(&pInputValues1[i]);
        __m128d inB = _mm_loadu_pd(&pInputValues2[i]);
        __m128 inAf = _mm_cvtpd_ps(inA);    // 0 0 A1 A0
        __m128 inBf = _mm_cvtpd_ps(inB);    // 0 0 B1 B0
        // shuffle B0 from place 0 to place 1, merge with offset
        __m128 tempA = _mm_shuffle_ps(inBf, offset, _MM_SHUFFLE(1, 0, 0, 0)); // 0 OF B0 B0
        // shuffle A1 from place 1 to place 0, merge with offset
        __m128 tempB = _mm_shuffle_ps(inAf, offset, _MM_SHUFFLE(1, 0, 1, 1)); // 0 OF A1 A1
        // replace B0 at place 0 with A0
        __m128 outA = _mm_blend_ps(tempA, inAf, 1);  // 0 OF B0 A0
        // replace A1 at place 1 with B1
        __m128 outB = _mm_blend_ps(tempB, inBf, 2);  // 0 OF B1 A1
        // store results
        _mm_storeu_ps(&_pPoints[i].O1, outA);
        _mm_storeu_ps(&_pPoints[i + 1].O1, outB);
    }
    // remaining iteration if _iNum is not even
    for (; i < _iNum; i++)
    {
        _pPoints[i].O1 = static_cast<float>(pInputValues1[i]);
        _pPoints[i].O2 = static_cast<float>(pInputValues2[i]);
        _pPoints[i].Offset = _uiDefaultOffset;
    }
}

这使用了shufps 的能力来从两个不同的源中进行选择来合并动态数据和常量偏移量,同样的 shuffles 也会移动每个需要移动的组中的 float 。然后使用混合将单个浮标替换为已经在正确位置的另一个浮标。这需要 2 次随机播放和 2 次混合,还有一种方法是 3 次随机播放和零混合,但是在当前的英特尔处理器上,所有随机播放都转到 p5,而混合可以转到不同的端口。转换也已经使用了 p5,所以它被淹没了,使用混合应该更好。每次迭代仍然是 4 p5 微操作,因此处理每个项目至少需要 2 个周期,这不是很好。

主循环跳过最后的项目,这样它就不会越界写入,它会稍微重叠 16 字节存储,在结构末尾写入 4 个字节。该部分会被下一个存储的真实结果覆盖,但在数组末尾这样做可能很危险。

关于c++ - 快速将 2 个 double 数组交织成具有 2 个 float 和 1 个 int(循环不变)成员的结构数组,并使用 SIMD double->float 转换?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57013636/

相关文章:

c++ - 寻找最大随机数

c++ - 在C++中默认情况下结构体的内存是如何排列的?

c++ - 如何在解析文本 C++ 时删除注释

c++ - Cygwin:使用asm标签编译cpp文件

windows - 程序集 - 如何修改堆栈大小?

c++ - MSVS2013 - Neon intrinsics VTBL2 : different result in debug mode vs release mode. 我该如何解决这个问题?

c++ - 在 std::queue 中存储可变大小的 block ?

javascript - 如何通过JS代码检测浏览器是否支持SIMD?

floating-point - 为什么浮点寄存器不同于通用寄存器

visual-c++ - (VC++) 未初始化变量的运行时检查 : How is the test Implemented?