neon - 如何使用 neon 内在函数优化直方图统计?

标签 neon intrinsics

我想用neon intrinsics优化直方图统计代码。但是我没有成功。这是c代码:

#define NUM (7*1024*1024)
uint8 src_data[NUM];
uint32 histogram_result[256] = {0};
for (int i = 0; i < NUM; i++)
{
    histogram_result[src_data[i]]++;
}

Historam 统计更像是串行处理。很难用 neon 内在函数进行优化。有人知道如何优化吗?提前致谢。

最佳答案

您不能直接对存储进行矢量化处理,但可以对它们进行流水线处理,并且可以在 32 位平台上对地址计算进行矢量化处理(在较小程度上在 64 位平台上进行)。

您要做的第一件事(实际上并不需要 NEON 才能受益)是展开直方图数组,以便您可以同时处理更多数据:

#define NUM (7*1024*1024)
uint8 src_data[NUM];
uint32 histogram_result[256][4] = {{0}};
for (int i = 0; i < NUM; i += 4)
{
    uint32_t *p0 = &histogram_result[src_data[i + 0]][0];
    uint32_t *p1 = &histogram_result[src_data[i + 1]][1];
    uint32_t *p2 = &histogram_result[src_data[i + 2]][2];
    uint32_t *p3 = &histogram_result[src_data[i + 3]][3];
    uint32_t c0 = *p0;
    uint32_t c1 = *p1;
    uint32_t c2 = *p2;
    uint32_t c3 = *p3;
    *p0 = c0 + 1;
    *p1 = c1 + 1;
    *p2 = c2 + 1;
    *p3 = c3 + 1;
}

for (int i = 0; i < 256; i++)
{
    packed_result[i] = histogram_result[i][0]
                     + histogram_result[i][1]
                     + histogram_result[i][2]
                     + histogram_result[i][3];
}

请注意,p0p3 永远不能指向相同的地址,因此重新排序它们的读写就可以了。

由此,您可以使用内在函数将 p0 的计算矢量化到 p3,并且您可以矢量化最终化循环。

首先按原样对其进行测试(因为我没有!)。然后,您可以尝试将数组结构化为 result[4][256] 而不是 result[256][4],或者使用更小或更大的展开因子。

对此应用一些 NEON 内在函数:

uint32 histogram_result[256 * 4] = {0};
static const uint16_t offsets[] = { 0x000, 0x001, 0x002, 0x003,
                                    0x000, 0x001, 0x002, 0x003 };
uint16x8_t voffs = vld1q_u16(offsets);
for (int i = 0; i < NUM; i += 8) {
    uint8x8_t p = vld1_u8(&src_data[i]);
    uint16x8_t p16 = vshll_n_u8(p, 16);
    p16 = vaddq_u16(p16, voffs);
    uint32_t c0 = histogram_result[vget_lane_u16(p16, 0)];
    uint32_t c1 = histogram_result[vget_lane_u16(p16, 1)];
    uint32_t c2 = histogram_result[vget_lane_u16(p16, 2)];
    uint32_t c3 = histogram_result[vget_lane_u16(p16, 3)];
    histogram_result[vget_lane_u16(p16, 0)] = c0 + 1;
    c0 = histogram_result[vget_lane_u16(p16, 4)];
    histogram_result[vget_lane_u16(p16, 1)] = c1 + 1;
    c1 = histogram_result[vget_lane_u16(p16, 5)];
    histogram_result[vget_lane_u16(p16, 2)] = c2 + 1;
    c2 = histogram_result[vget_lane_u16(p16, 6)];
    histogram_result[vget_lane_u16(p16, 3)] = c3 + 1;
    c3 = histogram_result[vget_lane_u16(p16, 7)];
    histogram_result[vget_lane_u16(p16, 4)] = c0 + 1;
    histogram_result[vget_lane_u16(p16, 5)] = c1 + 1;
    histogram_result[vget_lane_u16(p16, 6)] = c2 + 1;
    histogram_result[vget_lane_u16(p16, 7)] = c3 + 1;
}

随着直方图数组展开 x8 而不是 x4,您可能想要使用八个标量累加器而不是四个,但您必须记住这意味着八个计数寄存器和八个地址寄存器,这比 32 位 ARM 拥有的寄存器更多(因为您不能使用 SP 和 PC)。

不幸的是,地址计算由 NEON 内在函数处理,我认为编译器无法安全地推断它如何能够重新排序读写,因此您必须显式地重新排序它们并希望您'以最好的方式进行。

关于neon - 如何使用 neon 内在函数优化直方图统计?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38501529/

相关文章:

optimization - 矢量化代码以实现高效实现

c++ - SSE、内在函数和对齐

c++ - 如何将 arm64 中 vaddv_u8 的结果视为 NEON 寄存器

c - NEON 比较

arm - 裁剪的高效 NEON 实现

Android ARMv6/v7 和 VFP/NEON

c++ - _mm_crc32 给出与手动版本不同的结果

将 GCC 的 __builtin_ia32_pshufd 和 __v4si 模式转换为可移植内在模式?

Arm Neon Intrinsics 与手工组装

c - strlen AVX-512 __builtin_ctz 无效值