我如何编写可移植的 GNU C builtin vectors这个版本,它不依赖于 x86 set1 intrinsic?
typedef uint16_t v8su __attribute__((vector_size(16)));
v8su set1_u16_x86(uint16_t scalar) {
return (v8su)_mm_set1_epi16(scalar); // cast needed for gcc
}
肯定有比这更好的方法
v8su set1_u16(uint16_t s) {
return (v8su){s,s,s,s, s,s,s,s};
}
我不想编写用于广播单个字节的 AVX2 版本!
即使是这部分的 gcc-only 或 clang-only 答案也会很有趣,对于您想要分配给变量而不是仅用作二元运算符的操作数的情况(这与 gcc 配合良好,见下文)。
如果我想使用广播标量作为二元运算符的一个操作数,这适用于 gcc ( as documented in the manual ),但不适用于 clang:
v8su vecdiv10(v8su v) { return v / 10; } // doesn't compile with clang
使用 clang,如果我只针对 x86 并且只使用原生 vector 语法 to get the compiler to generate modular multiplicative inverse constants and instructions for me ,我可以写:
v8su vecdiv_set1(v8su v) {
return v / (v8su)_mm_set1_epi16(10); // gcc needs the cast
}
但是如果我加宽 vector (到 _mm256_set1_epi16
),我必须更改内在函数,而不是通过更改为 vector_size(32)
将整个代码转换为 AVX2在一个地方(对于不需要改组的纯垂直 SIMD)。它还违背了 native vector 的部分目的,因为它不会针对 ARM 或任何非 x86 目标进行编译。
丑陋的转换是必需的,因为 gcc 与 clang 不同,不考虑 v8us {aka __vector(8) short unsigned int}
与 __m128i {aka __vector(2) long long诠释
。
顺便说一句,所有这些都可以用 gcc 和 clang ( see it on Godbolt ) 编译成良好的 asm。 这只是一个如何优雅地编写的问题,使用不重复标量 N 次的可读语法。例如v/10
足够紧凑,甚至不需要将它放在自己的函数中。
使用 ICC 高效编译是一项奖励,但不是必需的。 GNU C native vector 显然是 ICC 的事后想法,甚至 simple stuff like this doesn't compile efficiently . set1_u16
编译为 8 个标量存储和一个 vector 加载,而不是 MOVD/VPBROADCASTW(启用 -xHOST
,因为它不识别 -march=haswell
,但 Godbolt 在支持 AVX2 的服务器上运行)。纯粹转换 _mm_
内在函数的结果是可以的,但是除法调用 SVML 函数!
最佳答案
可以使用两个观察为 GCC 和 Clang 找到通用的广播解决方案
- Clang's OpenCL vector extensions GCC 的 vector 扩展支持
scalar - vector
操作。 x - 0 = x
( butx + 0
does not work due to signed zero )。
这是一个包含四个 float 的 vector 的解决方案。
#if defined (__clang__)
typedef float v4sf __attribute__((ext_vector_type(4)));
#else
typedef float v4sf __attribute__ ((vector_size (16)));
#endif
v4sf broadcast4f(float x) {
return x - (v4sf){};
}
相同的通用解决方案可用于不同的 vector 。下面是一个包含八个无符号短裤的 vector 示例。
#if defined (__clang__)
typedef unsigned short v8su __attribute__((ext_vector_type(8)));
#else
typedef unsigned short v8su __attribute__((vector_size(16)));
#endif
v8su broadcast8us(short x) {
return x - (v8su){};
}
ICC (17) 支持 GCC vector 扩展的一个子集,但不支持 vector + scalar
或 vector*scalar
,因此广播仍然需要内部函数。 MSVC 不支持任何 vector
扩展名。
关于c - GNU C native vector : how to broadcast a scalar, 类似于 x86 的 _mm_set1_epi16,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40730815/