C:更快地访问查找表?

标签 c linux optimization compiler-optimization

我有一段代码可以一次跟踪 4 个正弦波。

我的 original code每帧进行大约 12000 次 sin() 函数调用,并以 30 fps 的速度运行。

我尝试通过生成查找表来优化它。我最终得到了 16 个不同的查找表。我在程序顶部的单独头文件中声明并加载它们。每个表都是这样声明的:

static const float d4_lookup[800] {...};

现在,使用这种新方法我实际上失去了 fps?!我现在以 20 fps 而不是 30 fps 的速度运行。现在每帧只需要执行 8 次 sin/cos 调用和 19200 次查找调用与 12000 次 sin() 调用。 我使用带有 -O3 标志的 gcc 进行编译。目前,查找表包含在顶部并且是程序全局范围的一部分。

我假设我没有将它们加载到正确的内存中或类似的东西中。我怎样才能加快查找时间?

** 编辑 1 **

根据要求,这是使用查找调用的函数,每帧调用一次:

void
update_sines(void)
{
    static float c1_sin, c1_cos;
    static float c2_sin, c2_cos;
    static float c3_sin, c3_cos;
    static float c4_sin, c4_cos;

    clock_gettime(CLOCK_MONOTONIC, &spec);
    s = spec.tv_sec;
    ms = spec.tv_nsec * 0.0000001;
    etime = concatenate((long)s, ms);

    c1_sin = sinf(etime * 0.00525);
    c1_cos = cosf(etime * 0.00525);
    c2_sin = sinf(etime * 0.007326);
    c2_cos = cosf(etime * 0.007326);
    c3_sin = sinf(etime * 0.0046);
    c3_cos = cosf(etime * 0.0046);
    c4_sin = sinf(etime * 0.007992);
    c4_cos = cosf(etime * 0.007992);

    int k;
    for (k = 0; k < 800; ++k)
    {       
        sine1[k] = a1_lookup[k] * ((bx1_sin_lookup[k] * c1_cos) + (c1_sin * bx1_cos_lookup[k])) + d1_lookup[k];
        sine2[k] = a2_lookup[k] * ((bx2_sin_lookup[k] * c2_cos) + (c2_sin * bx2_cos_lookup[k])) + d2_lookup[k] + 50;
        sine3[k] = a3_lookup[k] * ((bx3_sin_lookup[k] * c3_cos) + (c3_sin * bx3_cos_lookup[k])) + d3_lookup[k];
        sine4[k] = a4_lookup[k] * ((bx4_sin_lookup[k] * c4_cos) + (c4_sin * bx4_cos_lookup[k])) + d4_lookup[k] + 50;
    }

}

**更新**

对于阅读此线程的任何人,我放弃了这个问题。我尝试使用 OpenCL 内核、结构、SIMD 指令以及此处显示的所有解决方案。最后,计算每帧 sinf() 12800 的原始代码比查找表工作得更快,因为查找表不适合缓存。然而它仍然只有 30 fps。它只是有太多的事情要跟上我 60fps 的期望。我决定换个方向。感谢所有为此线程做出贡献的人。这些解决方案中的大多数可能会获得一些像样的速度改进,但没有什么比我在这里需要的 200% 的速度更能让查找表按我想要的方式工作了。

最佳答案

有时很难知道是什么让你变慢了,但你可能会破坏你的缓存命中,你可以尝试查找结构

typedef struct 
{
  float bx1_sin;
  float bx2_sin;
  float bx3_sin;
  float bx4_sin;
  float bx1_cos;
 etc etc
 including  sine1,2,3,4 as well

} lookup_table

然后

lookup_table  lookup[800]

现在第 k 次查找的所有内容都将在同一小块内存中。

此外,如果您使用将 k 作为参数的宏来执行循环的内容,我们可以说 SINE_CALC(k),或内联函数...

你可以做到

for (k = 0; k < 800; ++k)
{
  SINE_CALC(k); k++;
  SINE_CALC(k); k++;
  SINE_CALC(k); k++;
  SINE_CALC(k); k++;
  SINE_CALC(k); k++;
}

如果你做一个宏,确保 k++ 在宏调用之外,如图所示

关于C:更快地访问查找表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20900483/

相关文章:

c# - 使用 C# 和 C 语言进行 USB 转串口(来回)通信

c - 工具链与对齐的差异(为什么这甚至有效)

linux - Bash - 输出重定向

c++ - 查找分配数据的未执行位

python - 用于性能、缓存的 Numpy 纯函数

c - 在 C 中将 char 数组作为参数传递为指针

c - 为什么这些嵌入式 C 代码的安排表现如此不同?

linux - 如何在 Ubuntu 上清除 RapidSVN 的设置?

linux - 如何使用 vi 删除光标位置的所有行

c++重载括号运算符比直接访问数组成员慢