我试图看到 pymongo 的性能改进,但我没有观察到任何改进。
我的示例数据库有 400,000 条记录。本质上,我发现线程和单线程性能是相同的 - 唯一的性能增益来自多进程执行。
pymongo 在查询期间不会释放 GIL 吗?
单次性能:真实0m0.618s
多进程:真实0m0.144s
多线程:真正的0m0.656s
常规代码:
choices = ['foo','bar','baz']
def regular_read(db, sample_choice):
rows = db.test_samples.find({'choice':sample_choice})
return 42 # done to remove calculations from the picture
def main():
client = MongoClient('localhost', 27017)
db = client['test-async']
for sample_choice in choices:
regular_read(db, sample_choice)
if __name__ == '__main__':
main()
$ time python3 mongotest_read.py
real 0m0.618s
user 0m0.085s
sys 0m0.018s
现在,当我使用多处理时,我可以看到一些改进。
from random import randint, choice
import functools
from pymongo import MongoClient
from concurrent import futures
choices = ['foo','bar','baz']
MAX_WORKERS = 4
def regular_read(sample_choice):
client = MongoClient('localhost', 27017,connect=False)
db = client['test-async']
rows = db.test_samples.find({'choice':sample_choice})
#return sum(r['data'] for r in rows)
return 42
def main():
f = functools.partial(regular_read)
with futures.ProcessPoolExecutor(MAX_WORKERS) as executor:
res = executor.map(f, choices)
print(list(res))
return len(list(res))
if __name__ == '__main__':
main()
$ time python3 mongotest_proc_read.py
[42, 42, 42]
real 0m0.144s
user 0m0.106s
sys 0m0.041s
但是当您从 ProcessPoolExecutor 切换到 ThreadPoolExecutor 时,速度会回落到单线程模式。
...
def main():
client = MongoClient('localhost', 27017,connect=False)
f = functools.partial(regular_read, client)
with futures.ThreadPoolExecutor(MAX_WORKERS) as executor:
res = executor.map(f, choices)
print(list(res))
return len(list(res))
$ time python3 mongotest_thread_read.py
[42, 42, 42]
real 0m0.656s
user 0m0.111s
sys 0m0.024s
...
最佳答案
PyMongo 使用标准 Python 套接字模块,该模块在通过网络发送和接收数据时会删除 GIL。然而,瓶颈不是 MongoDB 或网络:而是 Python。
CPU 密集型 Python 进程无法通过添加线程来扩展;事实上,由于上下文切换和其他低效率问题,它们的速度略有减慢。要在 Python 中使用多个 CPU,请启动子进程。
我知道“查找”应该是 CPU 密集型的这一点似乎并不直观,但 Python 解释器的速度足够慢,与我们的直觉相矛盾。如果查询速度很快并且本地主机上的 MongoDB 没有延迟,那么 MongoDB 的性能可以轻松超越 Python 客户端。您刚刚运行的实验(用子进程代替线程)证实了 Python 性能是瓶颈。
为了确保最大吞吐量,请确保启用了 C 扩展:pymongo.has_c() == True
。完成此操作后,PyMongo 的运行速度将与 Python 客户端库所能达到的速度一样快,为了获得更多吞吐量,请使用多处理。
如果您预期的现实场景涉及更耗时的查询,或者具有一定网络延迟的远程 MongoDB,多线程可能会给您带来一些性能提升。
关于multithreading - 如何使用线程提高 pymongo 性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38442015/