linux - 线程级并行 VS 进程级并行

标签 linux multithreading parallel-processing

我对线程和进程有了基本的了解,我想知道为什么每本教科书都谈到线程级并行,进程级并行是否存在?线程级并行比进程级并行有什么优势?

最佳答案

简短回答:性能和编程简易性

长答案:

首先,必须考虑两种不同类型的并行性:基于任务的并行性(或“宏观并行性”)(例如任务 A 修改某些数据并将结果传递给任务 B)和数据级并行性(或“微并行性”)(例如,处理大型矩阵或向量的负载分布在多个并行代理之间)。

其次,当考虑并行性时,不同的代理需要交换信息。对于线程级并行性,所有线程都可以访问相同的地址空间,并且通信只是内存访问。 相反,进程级并行性需要特定的进程间通信(IPC)方式来允许进程交换数据。存在多种 IPC 方法(管道、共享内存、套接字等)(例如参见 https://en.wikipedia.org/wiki/Inter-process_communication )。

问题在于,这些方法通常具有很大的开销,并且一次通信可能需要多次耗时的数据复制。这是它们目前很少在单个进程上使用的主要原因。但是,当考虑在不同且可能相距较远的处理器上运行的进程时,主要使用进程级并行性。例如,客户端-服务器应用程序是进程级并行性。

在单个处理器上,进程级并行性目前也用于 shell 脚本,作为重用现有程序的简单方法。 例如,在 unix 上,像“sort < a_large_file | uniq”这样的脚本是进程级并行。可能不是实现此操作的最有效方法(就性能而言),但如果考虑编程时间,则完全是无与伦比的。

此外,线程级并行性的一大优点是:

1)通过共享内存实现简单快速的通信机制

2)很好地适应任务级并行性或数据级并行性

3) 易于编程

第 2) 点和第 3) 点可能是最重要的。虽然线程级并行性可以基于独立任务,但速度通常受到限制,并且大多数当前应用程序依赖于数据级并行性,而线程非常适合数据级并行性。公共(public)内存空间使得通信开销非常有限(除非考虑锁)并且存在非常高效且易于使用的并行化工具(例如 open-MP)

在独立进程上实现这种并行性也是可能的。在考虑使用大型计算器进行高性能计算时,这种情况甚至经常发生。存在一些(粗略的)工具(例如“消息传递接口(interface)”),但实现到目前为止比线程级并行更复杂、更容易出错且效率更低。

关于linux - 线程级并行 VS 进程级并行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54231481/

相关文章:

c# - C#占领随机整数

python - 为什么Python中进程数大于CPU线程总数时应用程序可以运行得更快?

matlab - 尝试在 MATLAB 中使用 parfor(并行 for 循环)时出错

linux - 如何将 msgmax 从 8192 字节 (/proc/sys/kernel/msgmax) 增加到 16000

linux - 如何在 Manjaro 上将 sysvinit 脚本转换为 systemd

linux - 执行系统库调用的源代码级调试的推荐方法是什么?

java - Linux下Java的虚拟内存使用,使用了太多内存

c# - 如何在 C# 中保持线程存活

c# - 设置要在并行中使用的内核

c++ - openMP 嵌套并行 for 循环与内部并行 for