c++ - 为什么 __builtin_popcount 比我自己的位计数函数慢?

标签 c++ gcc

在我编写了自己的位计数例程后,我偶然发现了 gcc 的 __builtin_popcount。但是当我切换到 __builtin_popcount 时,我的软件实际上运行得更慢。我在 Unbutu 上使用 Intel Core i3-4130T CPU @ 2.90GHz。我构建了一个性能测试以查看结果。它看起来像这样:

#include <iostream>
#include <sys/time.h>
#include <stdint.h>

using namespace std;

const int bitCount[256] = {
    0,1,1,2,1,2,2,3,  1,2,2,3,2,3,3,4,  1,2,2,3,2,3,3,4,  2,3,3,4,3,4,4,5,
    1,2,2,3,2,3,3,4,  2,3,3,4,3,4,4,5,  2,3,3,4,3,4,4,5,  3,4,4,5,4,5,5,6,
    1,2,2,3,2,3,3,4,  2,3,3,4,3,4,4,5,  2,3,3,4,3,4,4,5,  3,4,4,5,4,5,5,6,
    2,3,3,4,3,4,4,5,  3,4,4,5,4,5,5,6,  3,4,4,5,4,5,5,6,  4,5,5,6,5,6,6,7,
    1,2,2,3,2,3,3,4,  2,3,3,4,3,4,4,5,  2,3,3,4,3,4,4,5,  3,4,4,5,4,5,5,6,
    2,3,3,4,3,4,4,5,  3,4,4,5,4,5,5,6,  3,4,4,5,4,5,5,6,  4,5,5,6,5,6,6,7,
    2,3,3,4,3,4,4,5,  3,4,4,5,4,5,5,6,  3,4,4,5,4,5,5,6,  4,5,5,6,5,6,6,7,
    3,4,4,5,4,5,5,6,  4,5,5,6,5,6,6,7,  4,5,5,6,5,6,6,7,  5,6,6,7,6,7,7,8
};

const uint32_t m32_0001 = 0x000000ffu;
const uint32_t m32_0010 = 0x0000ff00u;
const uint32_t m32_0100 = 0x00ff0000u;
const uint32_t m32_1000 = 0xff000000u;

inline int countBits(uint32_t bitField)
{
    return
        bitCount[(bitField & m32_0001)      ] +
        bitCount[(bitField & m32_0010) >>  8] +
        bitCount[(bitField & m32_0100) >> 16] +
        bitCount[(bitField & m32_1000) >> 24];
}

inline long long currentTime() {
    struct timeval ct;
    gettimeofday(&ct, NULL);
    return ct.tv_sec * 1000000LL + ct.tv_usec;
}

int main() {
    long long start, delta, sum;

    start = currentTime();
    sum = 0;
    for(unsigned i = 0; i < 100000000; ++i)
        sum += countBits(i);
    delta = currentTime() - start;
    cout << "countBits         : sum=" << sum << ": time (usec)=" << delta << endl;

    start = currentTime();
    sum = 0;
    for(unsigned i = 0; i < 100000000; ++i)
        sum += __builtin_popcount(i);
    delta = currentTime() - start;
    cout << "__builtin_popcount: sum=" << sum << ": time (usec)=" << delta << endl;

    start = currentTime();
    sum = 0;
    for(unsigned i = 0; i < 100000000; ++i) {
        int count;
        asm("popcnt %1,%0" : "=r"(count) : "rm"(i) : "cc");
        sum += count;
    }
    delta = currentTime() - start;
    cout << "assembler         : sum=" << sum << ": time (usec)=" << delta << endl;

    return 0;
}

起初我用一个旧的编译器运行它:

> g++ --version | head -1
g++ (Ubuntu 4.8.4-2ubuntu1~14.04.3) 4.8.4
> cat /proc/cpuinfo | grep 'model name' | head -1
model name      : Intel(R) Core(TM) i3-4130T CPU @ 2.90GHz
> g++ -O3 popcountTest.cpp
> ./a.out
countBits         : sum=1314447104: time (usec)=148506
__builtin_popcount: sum=1314447104: time (usec)=345122
assembler         : sum=1314447104: time (usec)=138036

如您所见,基于表的 countBits 几乎与汇编程序一样快,并且比 __builtin_popcount 快得多。然后我在不同的机器类型(相同的处理器——我认为主板也是一样的)上尝试了一个更新的编译器:

> g++ --version | head -1
g++ (Ubuntu 7.3.0-16ubuntu3) 7.3.0
> cat /proc/cpuinfo | grep 'model name' | head -1
model name      : Intel(R) Core(TM) i3-4130T CPU @ 2.90GHz
> g++ -O3 popcountTest.cpp
> ./a.out
countBits         : sum=1314447104: time (usec)=164247
__builtin_popcount: sum=1314447104: time (usec)=345167
assembler         : sum=1314447104: time (usec)=138028

奇怪的是,较旧的编译器比较新的编译器更好地优化了我的 countBits 函数,但它与汇编器相比仍然有优势。显然,由于汇编程序行编译和运行,我的处理器支持 popcount,但为什么 __builtin_popcount 慢了两倍以上?我自己的例行程序怎么可能与基于硅的 popcount 竞争?我在寻找第一个设置位等的其他例程中有相同的经验。我的例程都比 GNU“内置”等价物快得多。

(顺便说一句,我不知道如何编写汇编程序。我只是在某个网页上找到了那行,而且它似乎奇迹般地起作用了。)

最佳答案

如果不在命令行上指定适当的“-march”,gcc 会生成对 __popcountdi2 函数的调用,而不是 popcnt 指令。请参阅:https://godbolt.org/z/z1BihM

根据维基百科,POPCNT 自 Nehalem 以来由 Intel 支持,自 Barcelona 以来由 AMD 支持:https://en.wikipedia.org/wiki/SSE4#POPCNT_and_LZCNT

关于c++ - 为什么 __builtin_popcount 比我自己的位计数函数慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52161596/

相关文章:

c++ - fwrite 输出字符串不正确

c++ - C++中字符串索引的问题

c++ - 重载运算符 = 在 C++ 中有两个参数

c++ - 游戏启动到空白屏幕而不是加载屏幕

c - 为什么 gcc4 发出警告以及如何避免它

gcc - 使用 gcc 为 32 位体系结构编译的 C 程序的意外退出代码

c++ - 在 C++ 模式下将 'c-header' 输入视为 'c++-header',此行为已弃用

c++ - 如何在 Qt 中创建一个粗体的红色文本标签?

linux - 安装 g++ 而不更新 glibc

c - 在 ubuntu 中使用 gcc 生成特定频率的声音?