c++ - 在 SSE 寄存器中存储常量(GCC、C++)

标签 c++ c assembly sse inline-assembly

StackOverflow 社区您好

我遇到了以下挑战:在我的 C++ 应用程序中,我有一个非常复杂的(三次)循环,在其中的所有深度上,我执行以下操作:

  1. 计算 4 个浮点值
  2. 将所有 4 个值乘以一个常数
  3. 将 float 转换为整数

此代码将在每个循环中运行数千次迭代(导致数十亿次操作),并且我希望使其尽可能快,因此我尝试利用 SSE 处理器指令。

在尝试手动优化代码时,我遇到了以下障碍:每次到达将所有值乘以常量的部分时,必须将常量加载到 XMM 寄存器。我的想法是保留一个寄存器(并禁止编译器使用它),加载一次值,然后使用该一个特定寄存器对乘法进行硬编码,但是我找不到正确的方法来做到这一点。

顺便说一句,有人可以向我解释一下为什么这段代码:

    vmovaps .LC0(%rip), %xmm1
    movl    $1000000000, %eax
    vmovaps .LC1(%rip), %xmm0
    .p2align 4,,10
    .p2align 3
.L2:
#APP
# 26 "sse.cpp" 1
    .intel_syntax noprefix;
    mulps %xmm1,%xmm0;
    .att_syntax prefix;

# 0 "" 2
#NO_APP
    subl    $1, %eax
    jne     .L2

比以下性能更差(真实 0m1.656s 与真实 0m1.618s):

    vmovaps .LC0(%rip), %xmm1
    movl    $1000000000, %eax
    vmovaps .LC1(%rip), %xmm0
    .p2align 4,,10
    .p2align 3
.L2:
    vmulps  %xmm0, %xmm1, %xmm1
    subl    $1, %eax
    jne     .L2

(区别在于,我在 gcc [第一个片段] 和旧版 SSE 指令中的内联汇编中使用 intel 语法以实现兼容性,而 gcc 使用 AVX vector [第二个片段] 自动生成版本)

最佳答案

需要注意的是,您需要更具体地说明如何编译内容,并可能提供最少的示例。我知道这可能不是最佳答案,但我认为这已经足够好了。虽然很长,但这是因为代码。

下面工作的底线是,应该安全地留给编译器并使用适当的编译器标志。在底部,我举了一个如何使用本地寄存器变量的示例,但它可能会赢不是很有用(它很容易被忽略)。您可以使用全局寄存器变量,但它不会产生任何好的结果,因此不鼓励。

我的设置是 Intel(R) Core(TM) i7-4770 CPU , gcc version 4.9.2clang version 3.5.0 。下面的代码确实存储 avx_scalarxmm注册 -O1以上。什么都没有或 -O0他们没有。生成程序集的代码是:

[clang++|g++] -march=native -S -Ox ./sse.cpp ,

哪里x是优化级别。

有趣的是 -march=archive在我测试的任何情况下,两个编译器都决定使用 SSE4.1 版本而不是旧版 SSE,即使我在代码本身中使用了旧版 SSE 内在函数。这很好。

我还使用 smmintrin.h 进行了测试这是SSE4.1 header 。如果没有标志,gcc 使用旧版 SSE,并且 clang 无法使用 error: "SSE4.1 instruction set not enabled" 进行编译。 。与xmmintrin.h这是旧版 SSE header ,两个编译器在存在该标志时都会生成 AVX 版本,而在该标志不存在时会生成旧版本。

测试代码avx.cpp :

extern "C" 
{
#include <smmintrin.h>
}

const float scalar = 3.14;
const __m128 avx_scalar = _mm_set1_ps(scalar);
__m128 vector;

__m128 its_me(){
    __m128 ret;
    __m128 result;
    for(int i = 0; i < 1000; ++i)
    {
        vector = _mm_set_ps(i*1,i*2,i*3,i*4);
        result = _mm_mul_ps(vector, avx_scalar);
        ret = _mm_add_ps(ret, result);
    }
    return ret;
}

g++ -march=native -S -O2 ./avx.cpp的相关部分:

.LFB639:
        .cfi_startproc
        vmovaps _ZL10avx_scalar(%rip), %xmm5
        xorl    %edx, %edx
        .p2align 4,,10
        .p2align 3
.L2:
        leal    (%rdx,%rdx), %ecx
        vxorps  %xmm2, %xmm2, %xmm2
        vxorps  %xmm1, %xmm1, %xmm1
        vxorps  %xmm3, %xmm3, %xmm3
        leal    0(,%rdx,4), %eax
        vcvtsi2ss       %ecx, %xmm3, %xmm3
        vxorps  %xmm4, %xmm4, %xmm4
        vcvtsi2ss       %eax, %xmm2, %xmm2
        leal    (%rcx,%rdx), %eax
        vcvtsi2ss       %edx, %xmm4, %xmm4
        addl    $1, %edx
        vcvtsi2ss       %eax, %xmm1, %xmm1
        vunpcklps       %xmm4, %xmm3, %xmm3
        vunpcklps       %xmm1, %xmm2, %xmm1
        vmovlhps        %xmm3, %xmm1, %xmm1
        vmulps  %xmm5, %xmm1, %xmm2
        vaddps  %xmm2, %xmm0, %xmm0
        cmpl    $1000, %edx
        jne     .L2
        vmovaps %xmm1, vector(%rip)
        ret
        .cfi_endproc

clang++ -march=native -S -O2 ./avx.cpp :

# BB#0:
        xorl    %eax, %eax
        movl    $4, %ecx
        movl    $2, %edx
        vmovaps _ZL10avx_scalar(%rip), %xmm1
        xorl    %esi, %esi
                                        # implicit-def: XMM0
        .align  16, 0x90
.LBB0_1:                                # =>This Inner Loop Header: Depth=1
        leal    -2(%rdx), %r8d
        leal    -4(%rcx), %edi
        vmovd   %edi, %xmm2
        vpinsrd $1, %eax, %xmm2, %xmm2
        vpinsrd $2, %r8d, %xmm2, %xmm2
        vpinsrd $3, %esi, %xmm2, %xmm2
        vcvtdq2ps       %xmm2, %xmm2
        vmulps  %xmm1, %xmm2, %xmm2
        vaddps  %xmm2, %xmm0, %xmm0
        leal    1(%rsi), %r8d
        leal    3(%rax), %edi
        vmovd   %ecx, %xmm2
        vpinsrd $1, %edi, %xmm2, %xmm2
        vpinsrd $2, %edx, %xmm2, %xmm2
        vpinsrd $3, %r8d, %xmm2, %xmm2
        vcvtdq2ps       %xmm2, %xmm2
        vmulps  %xmm1, %xmm2, %xmm3
        vaddps  %xmm3, %xmm0, %xmm0
        addl    $2, %esi
        addl    $6, %eax
        addl    $8, %ecx
        addl    $4, %edx
        cmpl    $1000, %esi             # imm = 0x3E8
        jne     .LBB0_1
# BB#2:
        vmovaps %xmm2, vector(%rip)
        retq

仅供记录,您可以手动将局部变量放入寄存器,但 clang 完全忽略,gcc 为 -01及以上。我鼓励寻找xmm13g++ -march=native -S -Ox ./avx.cpp 的输出中与不同x以下代码的值(假设您的 cpu 上至少有 13 个 xmm 寄存器):

extern "C" 
{
#include <xmmintrin.h>
}

const float scalar = 3.14;

__m128 its_me(){
    __m128 vector;
    register __m128 avx_scalar asm ("xmm13") = _mm_set1_ps(scalar); // that's how you do it in gcc.
    //const __m128 avx_scalar = _mm_set1_ps(scalar);
    __m128 ret;
    __m128 result;
    for(int i = 0; i < 1000; ++i)
    {
        vector = _mm_set_ps(i*1,i*2,i*3,i*4);
            result = _mm_mul_ps(vector, avx_scalar);
        ret = _mm_add_ps(ret, result);
    }
    return ret;
}

关于c++ - 在 SSE 寄存器中存储常量(GCC、C++),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28679308/

相关文章:

c++ - move 或命名返回值优化 (NRVO)?

C++ winapi-单击按钮上的新线程导致 fatal error

c - 获取位域中唯一位的数量

c - 我如何在 GTK 中从 Glade 获取文本输入?

assembly - 是否可以使用外部宏参数被内部宏使用?

c++ - C++ 上简单文件处理代码中的模糊错误

c++ - 将位转换为值

c - 当 vlclib event_manager 通知我时在 vlclib 中播放下一首歌曲

从 C 循环转换为 MIPS 汇编语言(错误地址错误)

c++ - 如何将 float 作为参数传递(内联汇编)?