c++ - Clang 对于 7 次比较生成的代码比 8 次比较生成的代码更差

我对 clang 能够将小整数的许多 == 比较转换为一个大 SIMD 指令的能力很感兴趣，但后来我注意到一些奇怪的事情。与进行 8 次比较时的代码相比，当我进行 7 次比较时，Clang 生成了“更糟糕”的代码(在我的业余评估中)。

bool f1(short x){
    return (x==-1) | (x == 150) |
           (x==5) | (x==64) | 
           (x==15) | (x==223) | 
           (x==42) | (x==47);
}

bool f2(short x){
    return (x==-1) | (x == 150) |
           (x==5) | (x==64) | 
           (x==15) | (x==223) | 
           (x==42);
}

我的问题是这是一个小的性能错误，或者 clang 有一个很好的理由不想引入虚拟比较(即假装与 7 个值之一有一个额外的比较)并在代码来实现它。

上帝 bolt 链接here :

# clang(trunk) -O2 -march=haswell
f1(short):
    vmovd   xmm0, edi
    vpbroadcastw    xmm0, xmm0             # set1(x)
    vpcmpeqw        xmm0, xmm0, xmmword ptr [rip + .LCPI0_0]  # 16 bytes = 8 shorts
    vpacksswb       xmm0, xmm0, xmm0
    vpmovmskb       eax, xmm0
    test    al, al
    setne   al           # booleanize the parallel-compare bitmask
    ret

对比

f2(short):
    cmp     di, -1
    sete    r8b
    cmp     edi, 150
    sete    dl
    cmp     di, 5             # scalar checks of 3 conditions
    vmovd   xmm0, edi
    vpbroadcastw    xmm0, xmm0
    vpcmpeqw        xmm0, xmm0, xmmword ptr [rip + .LCPI1_0]  # low 8 bytes = 4 shorts
    sete    al
    vpmovsxwd       xmm0, xmm0
    vmovmskps       esi, xmm0
    test    sil, sil
    setne   cl                # SIMD check of the other 4
    or      al, r8b
    or      al, dl
    or      al, cl            # and combine.
    ret

quickbench 似乎不起作用，因为不知道如何为其提供 -mavx2 标志。 (编者注:简单地计算微指令的前端成本表明，这对于吞吐量来说显然更糟糕。而且延迟也很糟糕。)

最佳答案

看起来 clang 的优化器没有考虑复制元素以使其达到 SIMD 方便的比较次数。但你是对的，这比做额外的标量工作要好。 显然错过了优化，应该将其报告为 clang/LLVM 优化器错误。 https://bugs.llvm.org/

<小时/>

f1() 的 asm显然比 f2() 更好:vpacksswb xmm与 vpmovsxwd xmm 具有相同的成本在主流 Intel 和 AMD CPU 上，就像其他单微指令洗牌一样。如果有的话vpmovsx -> vmovmskps整数域和 FP 域之间可能存在旁路延迟¹。

<小时/>

脚注 1:采用 AVX2(Sandybridge 系列)的主流 Intel CPU 上可能没有额外的旁路延迟； FP 操作之间的整数洗牌通常很好，IIRC。 (https://agner.org/optimize/)。但对于 Nehalem 上的 SSE4.1 版本，是的，可能会有整数版本没有的额外惩罚。

您不需要 AVX2，但需要在一条没有 pshufb 的指令中进行字广播。控制 vector 确实使其更加高效。并且 clang 选择 pshuflw -> pshufd对于 -march=nehalem

<小时/>

当然，这两个版本都不是最佳的。在 movemask 之前无需进行 shuffle 来压缩比较结果。

而不是 test al, al ，可以使用 test sil, 0b00001010 选择要检查的位例如，检查位 1 和 3，但忽略其他位置的非零位。

pcmpeqw将单词元素内的两个字节设置为相同，因此可以 pmovmskb结果并得到一个带有位对的整数。

使用字节寄存器而不是双字寄存器的好处也为零:test sil,sil应避免 REX 前缀并使用 test esi,esi .

因此，即使没有重复其中一个条件，f2()可能是:

f2:
    vmovd           xmm0, edi
    vpbroadcastw    xmm0, xmm0             # set1(x)
    vpcmpeqw        xmm0, xmm0, xmmword ptr [rip + .LCPI0_0]
    vpmovmskb       eax, xmm0
    test    eax, 0b011111111111111    # (1<<15) - 1 = low 14 bits set
    setne   al
    ret

那个test将根据pmovmksb的低14位设置ZF结果，因为高位在 TEST 掩码中被清除。 TEST = AND 不写入其输出。对于选择比较掩码的部分通常很有用。

但是由于我们首先需要在内存中使用一个 16 字节常量，所以我们应该复制其中一个元素以将其填充到 8 个元素。然后我们可以使用test eax,eax像一个正常人一样。压缩掩码以适合 8 位 AL完全是浪费时间和代码大小。 test r32, r32与 test r8,r8 一样快并且不需要 SIL、DIL 或 BPL 的 REX 前缀。

有趣的事实:AVX512VL 可以让我们使用 vpbroadcastw xmm0, edi结合 movd并广播。

<小时/>

或者只比较 4 个元素，而不是对 movmskps 进行额外的改组，我们这里只需要SSE2。使用面具确实很有用。

test_4_possibilities_SSE2:
    movd            xmm0, edi
    pshufd          xmm0, xmm0, 0             # set1_epi32(x)
    pcmpeqw         xmm0, [const]             # == set_epi32(a, b, c, d)
    pmovmskb        eax, xmm0
    test    eax, 0b0001000100010001     # the low bit of each group of 4
    setne   al
    ret

我们进行双字广播并忽略每个 32 位元素的高 16 位中的比较结果。使用 mask test让我们比任何额外的指令都更便宜地做到这一点。

没有 AVX2，SIMD 双字广播为 pshufd比需要文字广播便宜。

另一个选择是 imul与 0x00010001将一个字广播到 32 位寄存器中，但这有 3 个周期延迟，因此可能比 punpcklwd 更糟糕-> pshufd

不过，在循环内，值得加载 pshufb 的控制 vector 。 (SSSE3)而不是使用 2 次洗牌或一次 imul。

关于c++ - Clang 对于 7 次比较生成的代码比 8 次比较生成的代码更差，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58069614/

c++ - Clang 对于 7 次比较生成的代码比 8 次比较生成的代码更差

上一篇：java - Hibernate 期望时间戳数据库列的日期

下一篇：sql-server - WHERE 子句中的列顺序重要吗？