我正在一个需要同时运行多个作业(对不同数据)的项目。
我有一个图,其中包含许多具有巨大尺寸的连接组件。我正在为每个连接的组件创建新作业并提交。这些作业会同时运行还是会排队,并以FIFO优先级运行?
当然,我只能创建一个作业,并将每个连接的组件发送到每个映射器/缩减程序,但这将导致程序运行缓慢,因为我正在对每个连接的组件进行大量计算(反转等)。
最佳答案
除非没有相关的作业,否则作业将根据群集中的资源可用性同时运行。
当提交了更多涉及复杂计算的作业时,只有集群中的资源才能确定程序运行缓慢还是快速。
关于hadoop - hadoop mapreduce处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30427556/