c - 使用 SIMD,我如何有条件地仅移动 alpha channel 值为 255 的像素?

标签 c x86 simd avx2

我目前正在使用 AVX2 内部函数对一些代码进行矢量化以存储 32 位像素数据。由于 AVX2 寄存器是 256 位的,我可以同时对 8 个像素进行操作。我目前的代码可以从一个缓冲区加载 8 个像素,然后将它们存储到另一个缓冲区:

// Load 256 bits (8 pixels) from memory into register YMMx           
BitmapOctoPixel = _mm256_load_si256((const __m256i*)((PIXEL32*)GameBitmap->Memory + BitmapOffset));

// adjust the colors

// As an example, the YMM0 register currently holds these pixels:
//        AARRGGBBAARRGGBB-AARRGGBBAARRGGBB-AARRGGBBAARRGGBB-AARRGGBBAARRGGBB
// YMM0 = FF33281EFF000000-FF33281E00FFFFFF-00FFFFFF00FFFFFF-00FFFFFF00FFFFFF

// store the result into the destination buffer
_mm256_store_si256((__m256i*)((PIXEL32*)gBackBuffer.Memory + MemoryOffset), BitmapOctoPixel);

现在我只想移动 Alpha channel (“AA”组件)为 255 的像素。我不想进行 Alpha 混合。我只想将具有 0xFF 的像素存储为 alpha 值。

我想我可以使用掩码和 _mm256_maskstore_epi32() 函数来做到这一点,但经过几个小时的尝试,我仍然无法弄清楚。

谢谢

最佳答案

首先,请注意 _mm256_maskstore_epi32 在 AMD Zen/Zen2 上非常慢,比如 19 微指令和每 6 周期一个的吞吐量。 (https://uops.info/)。掩码加载很好,但掩码存储仅在英特尔硬件上有效。您可能希望与原始值混合并执行完整的 vector 存储。


maskstore 使用 32 位元素的高位作为存储与否的控制。
因此,您需要创建一个 vector ,当 alpha 正好 == 0xFF 时设置该位。

方便地,8 位 alpha 已经在 32 位元素的顶部,因此它的高位是整个 32 位元素的控制位。根据整个 alpha 字节为 0xFF,我们可以只使用 packed-8-bit 比较来将 alpha channel 的所有位(包括高位)设置为 0 或 1 maskstore根本不关心掩码中的其他位,因此像素其他部分的8位比较结果基本上是垃圾也没关系。


void store_opaque_only(void *dst, __m256i pixels)
{
// As an example, the YMM0 register currently holds these pixels:
//        AARRGGBBAARRGGBB-AARRGGBBAARRGGBB-AARRGGBBAARRGGBB-AARRGGBBAARRGGBB
// YMM0 = FF33281EFF000000-FF33281E00FFFFFF-00FFFFFF00FFFFFF-00FFFFFF00FFFFFF

    __m256i opaque = _mm256_cmpeq_epi8(pixels, _mm256_set1_epi8(-1));
    _mm256_maskstore_epi32(dst, opaque, pixels);
}

set1_epi8(-1) 而不是 set1_epi32(0xFF000000) 使常量的创建成本更低:编译器可以通过将寄存器与自身进行比较来创建全1,而不是从内存中加载常量。 (Godbolt ;当然这个函数会在实际用例中内联。)

# gcc10.2 -O3 -march=skylake
store_opaque_only:
    vpcmpeqd        ymm1, ymm1, ymm1           # all-ones
    vpcmpeqb        ymm1, ymm0, ymm1           # opaque =  pixels == -1
    vpmaskmovd      YMMWORD PTR [rdi], ymm1, ymm0
    ret

内联后,全1 vector 可以被提升出循环。


如果您不需要完全相等,例如alpha >= 0xF0,您可能必须在 vpcmpgtb _mm256_cmpgt_epi8 之前将范围转移到有符号(通过减去或异或 0x80)。调整后,您可以进行 dword 整数比较以创建 32 位掩码元素,因此您可以将其与 vpblendvb(整数字节混合)一起使用。

如果 alpha 位于 32 位元素中的不同位置,则在比较之前左移。

顺便说一句,如果您将像素存储回找到它们的位置,您还可以考虑在常规存储之前将原始数据使用 vblendvps,而不是 maskstore。

没有 32 位粒度整数混合,因此您必须 _mm256_castsi256_ps 让编译器对在 __m256i 上使用 _mm256_blendv_ps 感到满意> 变量。

FP 混合将在大多数 CPU 上花费额外的一个或 2 个绕过延迟周期,但只要 OoO exec 可以隐藏该延迟,就不会产生吞吐量成本,这在您处理独立的像素 vector 时很可能发生。但是这样做可以节省指令而不是 vpxor/vpcmpgtd 来设置 vpblendvb

避免使用 maskstore 在 AMD 上非常好。

关于c - 使用 SIMD,我如何有条件地仅移动 alpha channel 值为 255 的像素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64310182/

相关文章:

c 信号处理器

c - GNU C native vector : how to broadcast a scalar, 类似于 x86 的 _mm_set1_epi16

c++ - 高斯模糊的SSE优化

为用户模式Linux编译程序

c - 调试 Visual Studio C 项目的 NMake 文件

gcc - 自己内核的键盘中断处理程序 (C)

将 16 字节字符串与 SSE 进行比较

x86 - NASM 中断 x86 引用?

c - 计算距离平方的最快方法

c++ - 我可以在不取消设置以前的值的情况下设置一个位序列吗?