c++ - 使用 -O3 或 -Ofast 来编译基准代码是否现实,或者它会删除代码吗?

标签 c++ optimization g++ compiler-optimization compiler-flags

当使用 -O3 编译下面的基准代码时,它在延迟方面的差异给我留下了深刻的印象,所以我开始怀疑编译器是否通过某种方式删除代码来“作弊”。有办法检查吗?我可以安全地使用 -O3 进行基准测试吗?期望速度提高 15 倍是否现实?

没有 -O3 的结果:平均:239 纳米最小值:230 纳米(900 万次迭代)
-O3 的结果:平均:14 纳米,最小值:12 纳米(900 万次迭代)

int iterations = stoi(argv[1]);
int load = stoi(argv[2]);

long long x = 0;

for(int i = 0; i < iterations; i++) {

    long start = get_nano_ts(); // START clock

    for(int j = 0; j < load; j++) {
        if (i % 4 == 0) {
            x += (i % 4) * (i % 8);
        } else {
            x -= (i % 16) * (i % 32);
        }
    }

    long end = get_nano_ts(); // STOP clock

    // (omitted for clarity)
}

cout << "My result: " << x << endl;

注意:我正在使用 clock_gettime 来测量:

long get_nano_ts() {
    struct timespec ts;
    clock_gettime(CLOCK_MONOTONIC, &ts);
    return ts.tv_sec * 1000000000 + ts.tv_nsec;
}

最佳答案

在启用优化编译时,编译器肯定会“作弊”并删除不必要的代码。它实际上花了很长时间来加速你的代码,这几乎总是会带来令人印象深刻的加速。如果它能够以某种方式推导出一个公式来计算常数时间的结果而不是使用这个循环,它就会。常数因子 15 没什么特别的。

但这意味着您应该分析未优化的构建!事实上,当使用像 C 和 C++ 这样的语言时,未优化构建的性能几乎完全没有意义。您根本不必担心这一点。

当然,这可能会干扰您上面显示的微基准。有两点:

  1. 通常情况下,这种微优化也无关紧要。更喜欢分析您的实际程序,然后消除瓶颈。
  2. 如果您真的想要这样的微基准测试,请让它依赖于一些运行时输入并显示结果。这样一来,编译器就无法删除功能本身,只能使其相当快。

由于您似乎正在这样做,所以您展示的代码很有可能成为一个合理的微观基准。您应该注意的一件事是您的编译器是否将对 get_nano_ts(); 的两个调用都移动到循环的同一侧。允许这样做,因为“运行时”不算作可观察到的副作用。 (该标准甚至不要求您的机器以有限速度运行。)有人争论 here这通常不是问题,但我无法真正判断给出的答案是否有效。

如果您的程序除了您要进行基准测试的事情之外没有做任何昂贵的事情(如果可能的话,它无论如何都不应该做),您也可以将时间测量“移到”外部,例如与 time .

关于c++ - 使用 -O3 或 -Ofast 来编译基准代码是否现实,或者它会删除代码吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31195802/

相关文章:

c++ - 如何使用 rapidjson 查看 .json 中的数组? (cocos2d-x)

MySQL 优化过滤键值对作为记录

c++ - 在方法声明中使用 typedef 但在方法定义中使用规范类型是否合法 C++?

c++ - 如何在 bigmemory rcpp 中修改文件支持矩阵的值

c++ - 如何从 C++ 中的 PWSTR 中提取子字符串

c++ - 面对非阻塞I/O,如何设计状态机?

c++ - 来自环形拓扑的全局最大值,而不是来自 C++ 中的 MPI_REDUCE

r - 根据R中的两个条件优化功能

c++ - 在使用 C++ 和 GCC 的 Linux 中,是否可以将虚拟地址转换为物理地址?

c++ - 使用内联实例化时谓词继承编译错误