def main():
i = 2
sum = 1
while i < 100000:
j = 2
while j < i:
if i%j == 0:
sum += 1
break
j += 1
i += 1
print(sum)
if __name__ == "__main__":
main()
#include<iostream>
using namespace std;
int main() {
int sum = 1;
for (int i=2; i<100000; i++) {
for (int j=2; j<i; j++) {
if (i%j == 0) {
sum++;
break;
}
}
}
cout << sum << endl;
return 0;
}
C++
运行:
g++ -std=c++11 x.cpp -o x && time ./x
时间:
./x 1.36s user 0.00s system 99% cpu 1.376 total
Python
运行:
python x.py
时间:
python x.py 32.10s user 0.21s system 98% cpu 32.854 total
谁能解释这两个程序所花费的时间之间的巨大差异?并且可以做些什么来加快python的速度呢?
最佳答案
这是区别的一个简单示例:
C++中的i++
可以编译为简单的inc REGISTER
指令(在x86-64机器上)。只需执行一小部分周期即可执行。
Python中的i += 1
可以通过dis
与dis.dis('i += 1')
模块一起反汇编,该模块通知我们所涉及的字节码为:
1 0 LOAD_NAME 0 (i)
2 LOAD_CONST 0 (1)
4 INPLACE_ADD
6 STORE_NAME 0 (i)
8 LOAD_CONST 1 (None)
10 RETURN_VALUE
Try it online!从技术上讲,所有以
_NAME
结尾的指令都将成为函数中的_FAST
(我们对一个独立的语句进行了反汇编,因此其行为略有不同),并且在实际函数中该表达式不存在LOAD_CONST (None)
/RETURN_VALUE
对(该函数必须做到这一点,但不是针对每个表达式),但要足够接近。实际上,函数中的实际字节码将更像是: 1 0 LOAD_FAST 0 (i)
2 LOAD_CONST 0 (1)
4 INPLACE_ADD
6 STORE_FAST 0 (i)
每条指令都需要运行switch
语句或计算出的goto
(取决于CPython的编译方式),加载下一条指令并更新代码位置信息(还涉及反复检查以确保没有其他线程在请求the GIL) 。 LOAD_FAST
和LOAD_CONST
指令涉及C数组查找和引用计数调整(单独的单个引用计数调整等同于以前的i++
,不同之处在于它必须更改内存而不是寄存器,因此速度较慢)。 STORE_FAST
类似地涉及C数组查找,引用计数调整(以减小现有值),并且通常释放内存(如果decref删除了对该值的最后一个引用)。INPLACE_ADD
必须动态查找并调用一个函数指针来执行加法(首先是通过几层函数间接调用来完成),它本身必须提取每个Python int
的基础C值来完成工作(如果数字足够大,则涉及基于数组的数学运算,这很丑陋),(通常)创建一个全新的Python int
对象,并且还要进行更多的引用计数调整。基本上,为了获得与C/C++在针对寄存器的单个廉价汇编指令中所做的等效操作,Python必须执行(估计)六个函数调用(包括一个通过函数指针的调用),数十个内存查找,一个十几个引用计数调整,等等。坦率地说,最令人惊讶的是Python仅比C++花费约24倍的时间。
我会注意到,这里的相对成本对于简单的数学运算而言最高。单个字节码执行的工作越多,解释器开销的重要性就越小。不幸的是,对于这种情况,您的代码只不过是简单的数学运算,因此Python(至少是CPython)在这里最糟糕。
至于加快速度,主要规则是:
range
可以为您完成这项工作(并保存大量单个字节码指令)时,您正在手动维护计数器。正如我所提到的,这是解释器开销最高的最简单,最便宜的操作,但是这些操作通常是您实际上不需要做的很多事情,因为通常有更好的方法(例如for
循环遍历range
)而不是带有手动计数器调整功能的while
循环)。 numpy
。一次添加的所有开销都是不好的;只需为1000次添加支付一次,这是微不足道的。 cdef
声明)ctypes
调用现有的C库,和/或编写原始的Python C扩展(当Cython无法处理您想要的内容时)除此之外,您只需要接受具有动态类型的解释语言总是会产生编译型,静态类型的语言所没有的开销。
要解决第1点问题,您的代码的Python版本应如下所示:
def main():
sum = 1
for i in range(2, 100000):
for j in range(2, i):
if i%j == 0:
sum += 1
break
print(sum)
if __name__ == "__main__":
main()
您甚至可以将内部循环替换为: sum += any(i % j == 0 for j in range(2, i))
尽管这不太可能产生任何性能上的好处,但是只是简化了一点代码。使用range
可以提高性能,它将所有增量和测试的基本数学 bundle 到一个专用函数中,从而显着减少了开销。为了说明字节码复杂度的不同,请考虑一个仅执行
while
和手动计数器或for
和range
的循环的函数:def whileloop(n):
i = 0
while i < n:
i += 1
def forloop(n):
for i in range(n):
pass
分解每个功能显示: 3 0 LOAD_CONST 1 (0)
2 STORE_FAST 1 (i)
4 4 SETUP_LOOP 20 (to 26)
>> 6 LOAD_FAST 1 (i)
8 LOAD_FAST 0 (n)
10 COMPARE_OP 0 (<)
12 POP_JUMP_IF_FALSE 24
5 14 LOAD_FAST 1 (i)
16 LOAD_CONST 2 (1)
18 INPLACE_ADD
20 STORE_FAST 1 (i)
22 JUMP_ABSOLUTE 6
>> 24 POP_BLOCK
>> 26 LOAD_CONST 0 (None)
28 RETURN_VALUE
对于whileloop
和: 8 0 SETUP_LOOP 16 (to 18)
2 LOAD_GLOBAL 0 (range)
4 LOAD_FAST 0 (n)
6 CALL_FUNCTION 1
8 GET_ITER
>> 10 FOR_ITER 4 (to 16)
12 STORE_FAST 1 (i)
9 14 JUMP_ABSOLUTE 10
>> 16 POP_BLOCK
>> 18 LOAD_CONST 0 (None)
20 RETURN_VALUE
Try it online!用于
forloop
。 while
的循环主体(每遍执行一次,包括测试终止条件),从LOAD_FAST
之后的SETUP_LOOP
到JUMP_ABSOLUTE
,每个循环包含9条指令;对于for
,它从FOR_ITER
到JUMP_ABSOLUTE
运行,仅包含三个指令。由于所有这些指令的工作都很琐碎,因此很容易看出使用while
循环的手动管理计数器的循环本身的开销将如何显着增加。
关于python - Python vs C++即时新闻,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57044727/