我需要处理一个包含大约 100 个 shell (bash) 命令的文件;每行都有一个单独的 shell 命令。我必须并行执行这些命令(例如并行 10 个命令或 20 个命令,让 CPU 决定如何并行执行)。老实说,我不知道如何实现它,所以我只在这里附近的某个地方获取了代码;下面是相同的:
from subprocess import PIPE
import subprocess
import time
def submit_job_max_len(job_list, max_processes):
sleep_time = 0.1
processes = list()
for command in job_list:
print 'running process# {n}. Submitting {proc}.'.format(n=len(processes),
proc=str(command))
processes.append(subprocess.Popen(command, shell=False, stdout=None, stdin=PIPE))
while len(processes) >= max_processes:
time.sleep(sleep_time)
processes = [proc for proc in processes if proc.poll() is None]
while len(processes) > 0:
time.sleep(sleep_time)
processes = [proc for proc in processes if proc.poll() is None]
cmd = 'cat runCommands.sh'
job_list = ((cmd.format(n=i)).split() for i in range(5))
submit_job_max_len(job_list, max_processes=10)
我不明白最后三行到底在做什么。我的测试运行显示 range(n)
中的数字将执行每一行很多次。因此,如果数量为 5,则每行执行 5 次。我不想那样。有人可以解释一下吗?再次,请原谅我的无知。
最佳答案
GNU Parallel 是为您打造的:
cat the_file | parallel
默认情况下,每个 cpu 核心将运行一个作业。这可以通过 --jobs
进行调整。
GNU Parallel 是一个通用并行器,可以轻松地在同一台计算机或多台您可以通过 ssh 访问的计算机上并行运行作业。
如果您想在 4 个 CPU 上运行 32 个不同的作业,则并行化的直接方法是在每个 CPU 上运行 8 个作业:
GNU Parallel 在完成后会生成一个新进程 - 保持 CPU 处于事件状态,从而节省时间:
安装
出于安全原因,您应该使用软件包管理器安装 GNU Parallel,但如果 GNU Parallel 未针对您的发行版进行打包,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:
(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash
有关其他安装选项,请参阅 http://git.savannah.gnu.org/cgit/parallel.git/tree/README
了解更多
查看更多示例:http://www.gnu.org/software/parallel/man.html
观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1
浏览教程:http://www.gnu.org/software/parallel/parallel_tutorial.html
注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel
关于python 多处理 - 单文件多个命令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48857362/