除以常数的优化由 gcc 很好地优化,这是众所周知的:)
现在我想知道除以常数是如何优化的。 gcc 没有帮助我,clang 也没有。
也许我不擅长搜索这些资料,但我找不到有关分频常数优化的资料。 (相比之下,常量除法介绍得很好。)
#include <stdio.h>
int f(int x)
{
// can I optimize off the idiv opcode here?
return 33659/x;
}
int main()
{
int x;
scanf("%d", &x);
printf("%d", f(x));
return 0;
}
编辑1:
#include <stdio.h>
#define DIVIDEND 33
void f ( unsigned int* arr, int n )
{
for ( int i = 0; i < n ; i++ )
{
arr[i] = DIVIDEND / arr[i];
}
}
int main()
{
const int n = 1024;
unsigned int buf[n];
for ( int i = 0; i < n; i++ )
{
scanf ( "%u", buf + i );
}
f ( buf, n );
for ( int i = 0; i < n; i++ )
{
printf ( "%d", buf[i] );
}
return 0;
}
使用 clang -O3 -march=native div.c -o div
优化后只展开循环,同时:
#include <stdio.h>
#define DIVIDEND 33
#define DIVISOR DIVIDEND
void f ( unsigned int* arr, int n )
{
for ( int i = 0; i < n ; i++ )
{
//arr[i] = DIVIDEND / arr[i];
arr[i] = arr[i] / DIVISOR;
}
}
int main()
{
const int n = 1024;
unsigned int buf[n];
for ( int i = 0; i < n; i++ )
{
scanf ( "%u", buf + i );
}
f ( buf, n );
for ( int i = 0; i < n; i++ )
{
printf ( "%d", buf[i] );
}
return 0;
}
使用相同的命令行会产生一堆可怕的 AVX2 代码。 (记住除以常数改写成shift+mul+add,可以向量化!)
编辑2: 感谢@user2722968!应用 RCPPS 将使程序更快。
这是我使用 RCPPS 进行快速恒定股息分配的实验性实现:
https://github.com/ThinerDAS/didactic-spoon/blob/master/div.c
但是,我不确定如何在没有大量开销的情况下使其更准确。
最佳答案
如果您可以针对“除以”触发非常好的优化,那么您可能会受益于使用 RCPPS 指令(确实使用 SSE/AVX)计算 x/33659
的倒数。
关于c - 如何优化分配固定红利?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44862898/