python 多处理 - 单文件多个命令

标签 python parallel-processing multiprocessing

我需要处理一个包含大约 100 个 shell (bash) 命令的文件;每行都有一个单独的 shell 命令。我必须并行执行这些命令(例如并行 10 个命令或 20 个命令,让 CPU 决定如何并行执行)。老实说,我不知道如何实现它,所以我只在这里附近的某个地方获取了代码;下面是相同的:

from subprocess import PIPE
import subprocess
import time


def submit_job_max_len(job_list, max_processes):
  sleep_time = 0.1
  processes = list()
  for command in job_list:
    print 'running process# {n}. Submitting {proc}.'.format(n=len(processes),
        proc=str(command))
    processes.append(subprocess.Popen(command, shell=False, stdout=None, stdin=PIPE))
    while len(processes) >= max_processes:
      time.sleep(sleep_time)
      processes = [proc for proc in processes if proc.poll() is None]
  while len(processes) > 0:
    time.sleep(sleep_time)
    processes = [proc for proc in processes if proc.poll() is None]


cmd = 'cat runCommands.sh'
job_list = ((cmd.format(n=i)).split() for i in range(5))
submit_job_max_len(job_list, max_processes=10)

我不明白最后三行到底在做什么。我的测试运行显示 range(n) 中的数字将执行每一行很多次。因此,如果数量为 5,则每行执行 5 次。我不想那样。有人可以解释一下吗?再次,请原谅我的无知。

最佳答案

GNU Parallel 是为您打造的:

cat the_file | parallel

默认情况下,每个 cpu 核心将运行一个作业。这可以通过 --jobs 进行调整。

GNU Parallel 是一个通用并行器,可以轻松地在同一台计算机或多台您可以通过 ssh 访问的计算机上并行运行作业。

如果您想在 4 个 CPU 上运行 32 个不同的作业,则并行化的直接方法是在每个 CPU 上运行 8 个作业:

Simple scheduling

GNU Parallel 在完成后会生成一个新进程 - 保持 CPU 处于事件状态,从而节省时间:

GNU Parallel scheduling

安装

出于安全原因,您应该使用软件包管理器安装 GNU Parallel,但如果 GNU Parallel 未针对您的发行版进行打包,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项,请参阅 http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解更多

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

浏览教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

关于python 多处理 - 单文件多个命令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48857362/

相关文章:

python - 通过文本框交互式 matplotlib 图

c - 具有功能的多个进程

Go 并发 : Chudnovky's algorithm, 比同步慢

c++ - c++ operator |= atomic 是多核处理器吗?

python - 在启用 cookie 的站点上使用 urlretrieve 的多线程网络抓取工具

Python - 多进程,类的成员函数

扩展 SocketServer.TCPServer 时出现 Python "instance has no attribute"错误

python - 使用负索引在 Python 中访问整个字符串

python - 截取屏幕截图而不写入磁盘

c# - 如何使用任务并行库发出大量 HTTP 请求