hadoop - hadoop mapreduce处理

标签 hadoop graph mapreduce

我正在一个需要同时运行多个作业(对不同数据)的项目。

我有一个图,其中包含许多具有巨大尺寸的连接组件。我正在为每个连接的组件创建新作业并提交。这些作业会同时运行还是会排队,并以FIFO优先级运行?

当然,我只能创建一个作业,并将每个连接的组件发送到每个映射器/缩减程序,但这将导致程序运行缓慢,因为我正在对每个连接的组件进行大量计算(反转等)。

最佳答案

除非没有相关的作业,否则作业将根据群集中的资源可用性同时运行。

当提交了更多涉及复杂计算的作业时,只有集群中的资源才能确定程序运行缓慢还是快速。

关于hadoop - hadoop mapreduce处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30427556/

相关文章:

permissions - 为cloudera hadoop设置权限

java - Hadoop 2.0 JAR文件

database - TitanDB - 按时间戳降序构建属性索引

c++ - 比较两个图

regex - 使用 REGEX_EXTRACT_ALL 但投影我得到 "()"

java - Maven 构建失败并出现错误 : Could not find artifact . .. 在指定的路径 - 路径稍微不正确

python - 如何在 matplotlib 饼图中显示实际值

javascript - 按文档中的键汇总总计

java - 如何解决预期的 org.apache.hadoop.io.Text,在 mapreduce 作业中收到 org.apache.hadoop.io.LongWritable

hadoop - hadoop集群的最佳 block 大小