c - CMP+JE 是否比单个 MUL 消耗更多的时钟周期？

我运行的是 x86 处理器，但我认为我的问题很笼统。我很好奇 CMP + JE 序列与单个 MUL 操作所消耗的时钟周期的理论差异。

在 C 伪代码中:

unsigned foo = 1;    /* must be 0 or 1 */
unsigned num = 0;

/* Method 1: CMP + JE*/
if(foo == 1){
    num = 5;
}

/* Method 2: MUL */
num = foo*5;    /* num = 0 if foo = 0 */

不要深入研究伪代码，它纯粹是为了阐明这两种方法背后的数学逻辑。

我实际上比较的是以下两个指令序列:

方法一:CMP + JE

    MOV EAX, 1    ; FOO = 1 here, but can be set to 0
    MOV EBX, 0    ; NUM = 0

    CMP EAX, 1    ; if(foo == 1)
    JE  SUCCESS   ; enter branch
    JMP FINISH    ; end program

SUCCESS:
    MOV EBX, 5    ; num = 5

FINISH:

方法二:MUL

    MOV EAX, 1    ; FOO = 1 here, but can be set to 0

    MOV ECX, EAX  ; save copy of FOO to ECX
    MUL ECX, 5    ; result = foo*5
    MOV EBX, ECX  ; num = result = foo*5

似乎单个 MUL(总共 4 条指令)比 CMP + JE(总共 6 条指令)更有效，但消耗的时钟周期同样对于指令——即完成一条指令所需的时钟周期数是否与任何其他指令相同？

如果实际消耗的时钟周期取决于机器，那么在大多数处理器上，单个 MUL 是否通常比分支方法更快，因为它需要的指令总数更少？

最佳答案

现代 CPU 性能比仅仅计算每条指令的周期数远复杂。您需要(至少)考虑以下所有因素:

分支预测
指令重新排序
注册重命名
指令缓存命中/未命中
数据缓存命中/未命中
TLB 未命中/页面错误

所有这些都会受到周围代码的严重影响。

所以基本上，执行这样的微基准测试并获得有用的结果几乎是不可能的!

但是，如果非要我猜的话，我会说没有 JE 的代码通常会更高效，因为它消除了分支，从而简化了分支预测行为。

关于c - CMP+JE 是否比单个 MUL 消耗更多的时钟周期？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16821739/

c - CMP+JE 是否比单个 MUL 消耗更多的时钟周期？

上一篇：c - 当我使用错误的格式说明符时会发生什么？

下一篇：将字符串复制到C中的另一个字符串