c - x64 操作系统上 x32 ELF 的除法性能

标签 c windows performance x86 division

在下面的示例中,在 64 位架构上运行 32 位 ELF 速度更快,我不明白为什么。我尝试了两个示例,一个使用除法,另一个使用乘法。表现符合预期,但该部门的表现令人惊讶。

我们在汇编中看到编译器正在调用 _alldiv,它在 32 位架构上模拟 64 位除法,因此它一定比简单地使用汇编指令 idiv 慢。所以我不明白我得到的结果:

我的设置是:Windows 10 x64,Visual Studio 2019

我使用 Measure-Command { .\out.exe } 为代码计时:

  • 乘法
    • 32 位 ELF:3360 毫秒
    • 64 位 ELF:1469 毫秒
  • 部门
    • 32 位 ELF:7383 毫秒
    • 64 位 ELF:8567 毫秒

代码

#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>
#include <limits.h>
#include <Windows.h>

volatile int64_t m = 32;
volatile int64_t n = 12;
volatile int64_t result;

int main(void)
{
    for (size_t i = 0; i < (1 << 30); i++)
    {
#       ifdef DIVISION
        result = m / n;
#       else 
        result = m * n;
#       endif
        m += 1;
        n += 3;
    }
}

64位反汇编(划分)

    for (size_t i = 0; i < (1 << 30); i++)
00007FF60DA81000  mov         r8d,40000000h  
00007FF60DA81006  nop         word ptr [rax+rax]  
    {
        result = m / n;
00007FF60DA81010  mov         rcx,qword ptr [n (07FF60DA83038h)]  
00007FF60DA81017  mov         rax,qword ptr [m (07FF60DA83040h)]  
00007FF60DA8101E  cqo  
00007FF60DA81020  idiv        rax,rcx  
00007FF60DA81023  mov         qword ptr [result (07FF60DA83648h)],rax  
        m += 1;
00007FF60DA8102A  mov         rax,qword ptr [m (07FF60DA83040h)]  
00007FF60DA81031  inc         rax  
00007FF60DA81034  mov         qword ptr [m (07FF60DA83040h)],rax  
        n += 3;
00007FF60DA8103B  mov         rax,qword ptr [n (07FF60DA83038h)]  
00007FF60DA81042  add         rax,3  
00007FF60DA81046  mov         qword ptr [n (07FF60DA83038h)],rax  
00007FF60DA8104D  sub         r8,1  
00007FF60DA81051  jne         main+10h (07FF60DA81010h)  
    }
}

32位反汇编(除法)

    for (size_t i = 0; i < (1 << 30); i++)
00A41002  mov         edi,40000000h  
00A41007  nop         word ptr [eax+eax]  
    {
        result = m / n;
00A41010  mov         edx,dword ptr [n (0A43018h)]  
00A41016  mov         eax,dword ptr ds:[00A4301Ch]  
00A4101B  mov         esi,dword ptr [m (0A43020h)]  
00A41021  mov         ecx,dword ptr ds:[0A43024h]  
00A41027  push        eax  
00A41028  push        edx  
00A41029  push        ecx  
00A4102A  push        esi  
00A4102B  call        _alldiv (0A41CD0h)  
00A41030  mov         dword ptr [result (0A433A0h)],eax  
00A41035  mov         dword ptr ds:[0A433A4h],edx  
        m += 1;
00A4103B  mov         eax,dword ptr [m (0A43020h)]  
00A41040  mov         ecx,dword ptr ds:[0A43024h]  
00A41046  add         eax,1  
00A41049  mov         dword ptr [m (0A43020h)],eax  
00A4104E  adc         ecx,0  
00A41051  mov         dword ptr ds:[0A43024h],ecx  
        n += 3;
00A41057  mov         eax,dword ptr [n (0A43018h)]  
00A4105C  mov         ecx,dword ptr ds:[0A4301Ch]  
00A41062  add         eax,3  
00A41065  mov         dword ptr [n (0A43018h)],eax  
00A4106A  adc         ecx,0  
00A4106D  mov         dword ptr ds:[0A4301Ch],ecx  
00A41073  sub         edi,1  
00A41076  jne         main+10h (0A41010h)  
    }
}

编辑

进一步调查 Chris Dodd ,我稍微修改了我的代码如下:

volatile int64_t m = 32000000000;
volatile int64_t n = 12000000000;
volatile int64_t result;

这次我得到了这些结果:

  • 部门
    • 32 位 ELF:22407 毫秒
    • 64 位 ELF:17812 毫秒

最佳答案

如果你看instruction timings for x86 processors ,事实证明,在最近的 Intel 处理器上,64 位除法的成本是 32 位除法的 3-4 倍——如果你看一下 alldiv 的内部结构(链接在上面的评论中),你的值(value)观将始终适合 32 位,它将使用单个 32 位除法...

关于c - x64 操作系统上 x32 ELF 的除法性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57389985/

相关文章:

mysql log_queries_not_using_indexes 工作错误?

linux - VMware ESXi 本地存储速度慢,仅位于一个磁盘分区上

c - 解析命令并将文件路径传递给 fopen

c - 在变量被释放时中断

c - x--c中的操作,为什么b的值在减少并等于 '2',但c的值没有变化

c++ - 测量 C++ 中函数调用的执行时间

windows - 如何在嵌套循环批处理脚本中打破内部循环

通过 "fork"为一个父进程创建多个进程

windows - 如何使用一次性 Windows VM 镜像设置测试环境?

sql - 等于 (=) 与 LIKE