并行处理

标签 python parallel-processing

我是 Python 新手。我有 2000 个文件，每个文件大约 100 MB。我必须阅读它们中的每一个并将它们合并到一个大矩阵(或表格)中。我可以为此使用并行处理以节省一些时间吗？如果是，如何？我试着搜索，事情看起来很复杂。目前，连续完成这项工作大约需要 8 个小时。我们有一个非常大的服务器，有一个 TB RAM 和几百个处理器。我怎样才能有效地利用它？

感谢您的帮助。

最佳答案

您可以使用 subprocess 在单独的进程中预处理文件 模块；但是，如果最终表保存在内存中，那么该过程最终将成为您的瓶颈。

还有另一种可能的方法，使用 的共享内存 mmap 对象。每个子进程都可以负责将文件加载到映射内存的一个子部分。

关于并行处理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8157068/

上一篇：python - 在 Mac OS X 10.6 上为 Apache 2.2.21、Python 2.5.4 安装 mod_python

下一篇：Python pygame.transform.rotate

相关文章：

python - 使用 python 从虚拟机捕获实时网络流量

c - MPI_Get_count 返回计数负值

python - 将 Python 函数应用于 Pandas 分组数据帧 - 加速计算的最有效方法是什么？

Python 和 MySQLdb

python - 在 Python 中向字典添加元素

c - 为什么这个 MPI 代码执行无序？

python - 有没有比列出目录中的所有文件更快的查找文件的方法？

parallel-processing - 平行加速度异常示例

python - 如何在 Visual Studio Code 中显示 Jupyter Notebook 中的绘图

python - 在 python 脚本中使用代理后面的 git