c++ - 帮助 GCC 进行自动矢量化

标签 c++ gcc mingw sse vectorization

我有一个需要优化的着色器(有很多 vector 操作),我正在试验 SSE 指令以便更好地理解这个问题。

我有一些非常简单的示例代码。通过 USE_SSE 定义,它使用显式 SSE 内在函数;没有它,我希望 GCC 会为我完成这项工作。自动矢量化感觉有点挑剔,但我希望它能帮我省点事。

编译器和平台是:gcc 4.7.1 (tdm64),目标 x86_64-w64-mingw32 和 Ivy Bridge 上的 Windows 7。

测试代码如下:

/*
    Include all the SIMD intrinsics.
*/
#ifdef USE_SSE
#include <x86intrin.h>
#endif
#include <cstdio>

#if   defined(__GNUG__) || defined(__clang__) 
    /* GCC & CLANG */

    #define SSVEC_FINLINE __attribute__((always_inline))

#elif defined(_WIN32) && defined(MSC_VER) 
    /* MSVC. */

    #define SSVEC_FINLINE __forceinline

#else
#error Unsupported platform.
#endif


#ifdef USE_SSE

    typedef __m128 vec4f;

    inline void addvec4f(vec4f &a, vec4f const &b)
    {
        a = _mm_add_ps(a, b);
    }

#else

    typedef float vec4f[4];

    inline void addvec4f(vec4f &a, vec4f const &b)
    {
        a[0] = a[0] + b[0];
        a[1] = a[1] + b[1];
        a[2] = a[2] + b[2];
        a[3] = a[3] + b[3];
    }

#endif

int main(int argc, char *argv[])
{
    int const count = 1e7;

    #ifdef USE_SSE
    printf("Using SSE.\n");
    #else
    printf("Not using SSE.\n");
    #endif

    vec4f data = {1.0f, 1.0f, 1.0f, 1.0f};

    for (int i = 0; i < count; ++i)
    {
        vec4f val = {0.1f, 0.1f, 0.1f, 0.1f};
        addvec4f(data, val);
    }

    float result[4] = {0};
    #ifdef USE_SSE
    _mm_store_ps(result, data);
    #else
    result[0] = data[0];
    result[1] = data[1];
    result[2] = data[2];
    result[3] = data[3];
    #endif

    printf("Result: %f %f %f %f\n", result[0], result[1], result[2], result[3]);

    return 0;
}

这是编译的:

g++ -O3 ssetest.cpp -o nossetest.exe
g++ -O3 -DUSE_SSE ssetest.cpp -o ssetest.exe

除了显式 SSE 版本快一点之外,输出没有区别。

这是循环的程序集,首先是显式 SSE:

.L3:
subl    $1, %eax
addps   %xmm1, %xmm0
jne .L3

它内联调用。很好,或多或少只是一个直线上升 _mm_add_ps

数组版本:

.L3:
subl    $1, %eax
addss   %xmm0, %xmm1
addss   %xmm0, %xmm2
addss   %xmm0, %xmm3
addss   %xmm0, %xmm4
jne .L3

它正在使用 SSE 数学,但在每个数组成员上。不太理想。

我的问题是,如何帮助 GCC 使其更好地优化 vec4f 的数组版本?

任何特定于 Linux 的提示也很有帮助,那是真正的代码将运行的地方。

最佳答案

这篇关于 Auto-vectorization with gcc 4.7LockLess 文章毫无疑问,这是我见过的最好的文章,我花了一段时间寻找类似主题的好文章。他们还有很多其他articles您可能会发现,对于处理各种低级软件开发方式的类似主题非常有用。

关于c++ - 帮助 GCC 进行自动矢量化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15467316/

相关文章:

c++ - MinGW g++编译速度极慢

c++ - `error: invalid initialization of non-const reference` 通过引用传递指针

c - 如何在不修改程序的情况下通过fork启动一个进程的两个实例

c - 通过 pthread 库的内存可见性?

c - 为什么 sscanf 不填充变量?

c++ - cygwin下如何改用g++ mingw工具链

c++ - 为什么只有当它有模板推导时我才能将左值绑定(bind)到通用引用?

c++ - 将缓冲区从 C++ 模块返回到 node.js

c++ - 如何使用 C++ 将 UTF-16 转换为 UTF-8?

c++ - 在 Windows 上使用 g++ 对 glfw3 的 undefined reference