python - Python vs C++即时新闻

def main():
    i = 2
    sum = 1
    while i < 100000:
        j = 2
        while j < i:
            if i%j == 0:
                sum += 1
                break
            j += 1
        i += 1

    print(sum)


if __name__ == "__main__":
    main()

#include<iostream>

using namespace std;

int main() {
    int sum = 1;
    for (int i=2; i<100000; i++) {
        for (int j=2; j<i; j++) {
            if (i%j == 0) {
                sum++;
                break;
            }
        }
    }
    cout << sum << endl;
    return 0;
}

C++

运行:g++ -std=c++11 x.cpp -o x && time ./x
时间:./x 1.36s user 0.00s system 99% cpu 1.376 total
Python

运行:python x.py
时间:python x.py 32.10s user 0.21s system 98% cpu 32.854 total
谁能解释这两个程序所花费的时间之间的巨大差异？并且可以做些什么来加快python的速度呢？

最佳答案

这是区别的一个简单示例:
C++中的i++可以编译为简单的inc REGISTER指令(在x86-64机器上)。只需执行一小部分周期即可执行。
Python中的i += 1可以通过dis与dis.dis('i += 1')模块一起反汇编，该模块通知我们所涉及的字节码为:

  1           0 LOAD_NAME                0 (i)
              2 LOAD_CONST               0 (1)
              4 INPLACE_ADD
              6 STORE_NAME               0 (i)
              8 LOAD_CONST               1 (None)
             10 RETURN_VALUE

Try it online!
从技术上讲，所有以_NAME结尾的指令都将成为函数中的_FAST(我们对一个独立的语句进行了反汇编，因此其行为略有不同)，并且在实际函数中该表达式不存在LOAD_CONST (None)/RETURN_VALUE对(该函数必须做到这一点，但不是针对每个表达式)，但要足够接近。实际上，函数中的实际字节码将更像是:

  1           0 LOAD_FAST                0 (i)
              2 LOAD_CONST               0 (1)
              4 INPLACE_ADD
              6 STORE_FAST               0 (i)

每条指令都需要运行switch语句或计算出的goto(取决于CPython的编译方式)，加载下一条指令并更新代码位置信息(还涉及反复检查以确保没有其他线程在请求the GIL) 。 LOAD_FAST和LOAD_CONST指令涉及C数组查找和引用计数调整(单独的单个引用计数调整等同于以前的i++，不同之处在于它必须更改内存而不是寄存器，因此速度较慢)。 STORE_FAST类似地涉及C数组查找，引用计数调整(以减小现有值)，并且通常释放内存(如果decref删除了对该值的最后一个引用)。INPLACE_ADD必须动态查找并调用一个函数指针来执行加法(首先是通过几层函数间接调用来完成)，它本身必须提取每个Python int的基础C值来完成工作(如果数字足够大，则涉及基于数组的数学运算，这很丑陋)，(通常)创建一个全新的Python int对象，并且还要进行更多的引用计数调整。
基本上，为了获得与C/C++在针对寄存器的单个廉价汇编指令中所做的等效操作，Python必须执行(估计)六个函数调用(包括一个通过函数指针的调用)，数十个内存查找，一个十几个引用计数调整，等等。坦率地说，最令人惊讶的是Python仅比C++花费约24倍的时间。
我会注意到，这里的相对成本对于简单的数学运算而言最高。单个字节码执行的工作越多，解释器开销的重要性就越小。不幸的是，对于这种情况，您的代码只不过是简单的数学运算，因此Python(至少是CPython)在这里最糟糕。
至于加快速度，主要规则是:

编写Python代码，而不是C代码。当Python的range可以为您完成这项工作(并保存大量单个字节码指令)时，您正在手动维护计数器。正如我所提到的，这是解释器开销最高的最简单，最便宜的操作，但是这些操作通常是您实际上不需要做的很多事情，因为通常有更好的方法(例如for循环遍历range)而不是带有手动计数器调整功能的while循环)。

对于大规模数学运算，请使用可以批量完成工作的扩展模块，例如numpy。一次添加的所有开销都是不好的；只需为1000次添加支付一次，这是微不足道的。

尝试其他解释器(例如PyPy)

使用Cython从Python代码编译C++(需要添加适当的cdef声明)

使用ctypes调用现有的C库，和/或编写原始的Python C扩展(当Cython无法处理您想要的内容时)

除此之外，您只需要接受具有动态类型的解释语言总是会产生编译型，静态类型的语言所没有的开销。

要解决第1点问题，您的代码的Python版本应如下所示:

def main():
    sum = 1
    for i in range(2, 100000):
        for j in range(2, i):
            if i%j == 0:
                sum += 1
                break

    print(sum)

if __name__ == "__main__":
    main()

您甚至可以将内部循环替换为:

    sum += any(i % j == 0 for j in range(2, i))

尽管这不太可能产生任何性能上的好处，但是只是简化了一点代码。使用range可以提高性能，它将所有增量和测试的基本数学 bundle 到一个专用函数中，从而显着减少了开销。
为了说明字节码复杂度的不同，请考虑一个仅执行while和手动计数器或for和range的循环的函数:

def whileloop(n):
    i = 0
    while i < n:
        i += 1

def forloop(n):
    for i in range(n):
        pass

分解每个功能显示:

  3           0 LOAD_CONST               1 (0)
              2 STORE_FAST               1 (i)

  4           4 SETUP_LOOP              20 (to 26)
        >>    6 LOAD_FAST                1 (i)
              8 LOAD_FAST                0 (n)
             10 COMPARE_OP               0 (<)
             12 POP_JUMP_IF_FALSE       24

  5          14 LOAD_FAST                1 (i)
             16 LOAD_CONST               2 (1)
             18 INPLACE_ADD
             20 STORE_FAST               1 (i)
             22 JUMP_ABSOLUTE            6
        >>   24 POP_BLOCK
        >>   26 LOAD_CONST               0 (None)
             28 RETURN_VALUE

对于whileloop和:

  8           0 SETUP_LOOP              16 (to 18)
              2 LOAD_GLOBAL              0 (range)
              4 LOAD_FAST                0 (n)
              6 CALL_FUNCTION            1
              8 GET_ITER
        >>   10 FOR_ITER                 4 (to 16)
             12 STORE_FAST               1 (i)

  9          14 JUMP_ABSOLUTE           10
        >>   16 POP_BLOCK
        >>   18 LOAD_CONST               0 (None)
             20 RETURN_VALUE

Try it online!
用于forloop。 while的循环主体(每遍执行一次，包括测试终止条件)，从LOAD_FAST之后的SETUP_LOOP到JUMP_ABSOLUTE，每个循环包含9条指令；对于for，它从FOR_ITER到JUMP_ABSOLUTE运行，仅包含三个指令。由于所有这些指令的工作都很琐碎，因此很容易看出使用while循环的手动管理计数器的循环本身的开销将如何显着增加。

关于python - Python vs C++即时新闻，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57044727/

python - Python vs C++即时新闻

上一篇：c++ - 学习 C++ 中的 "effective"模板编程的好书/资源？

下一篇：c++ - 如何在 C++ 中导入所有#include？