python - os.walk() 的并行化

标签 python

我在网络存储设备上托管了一个大型目录结构,我想使用 os.walk 遍历它。系统相当慢,但我认为如果我可以同时查询多个目录(所有目录都具有相同的公共(public)根),这个过程可以更快地完成。我不在乎输出的顺序是什么,只要到最后我已经解析了所有内容即可。

我正在考虑重新实现 os.walk 以将新目录传递到线程工作线程池中。如果别人的代码已经存在,我宁愿使用它(为什么要重新发明轮子?),但还没有遇到过。

确定这是一项常见任务?有没有人遇到过这样的事情?也许我遗漏了一些东西并且不会导致加速。

如果我在一周左右没有得到答复,毫无疑问我会在这里发布我的尝试。

最佳答案

看来你需要一个分布式作业执行系统。我一直在使用 Gearman有一段时间发现它是一个很棒的框架,如果你不想从基本的 Thread 模块开始,我会推荐它。它支持用 Python 编写的客户端和工作人员,因此可能满足您的需求。但是您可能仍然需要做部门工作。

关于python - os.walk() 的并行化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15522134/

相关文章:

python - 如何使用前导空格将 txt 文件转换为 json?

python - 在 qsub 中运行 python 脚本

python - 在线程中使用384000Hz的PyAudio

Python io 模块的 TextIOWrapper 或 BuffereRWPair 函数不能很好地与 pySerial 配合使用

python - 如何点击QWebView中的提交按钮?

python - 从矩阵和向量中选择对应的k行

python - 了解可变变量的函数作用域

python - Opencv Python卡尔曼滤波器预测结果查询

python - Flask SSL 接收垃圾请求

python - pandas,尝试从行数太多的数据帧中仅对每个 movie_id 采样 5 行