hadoop - 我从哪里提交 hadoop 作业重要吗?

标签 hadoop mapreduce

无论我是从不同的客户端服务器还是从同一个服务器提交一堆 hadoop 作业,它对资源有任何可衡量的影响吗?我认为不会,因为所有工作都是在集群中完成的。这是正确的吗?

最佳答案

提交给 Hadoop 集群的客户端唯一占用大量资源的是输入拆分的计算。当输入数据很大或从同一个客户端提交了太多作业时,由于输入拆分计算,作业提交可能会变得有点慢。

我不记得 Hadoop 版本或参数,但包含一个可配置参数,用于将输入拆分的计算从提交作业的客户端转移到 Hadoop 集群。

关于hadoop - 我从哪里提交 hadoop 作业重要吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14421975/

相关文章:

oracle - 每月定期进行数据过滤

hadoop - 在Hive中注册Hbase表

java - hadoop中的mapreduce距离计算

java - 映射器和缩减器的数量。这是什么意思?

python - 如何从Python流式MapReduce作业中省略空的part-000x文件

hadoop - 独立的 map reduce 作业一个接一个地执行

hadoop - 在何处以及如何设置HADOOP_CLASSPATH

java - APACHE HADOOP 版本 2.8.0 的 HADOOP_HOME 和 PIG_CLASSPATH 的正确值是多少?

javascript - mongodb使用mapreduce从其他集合插入大量集合中的嵌入文档

java - OOZIE HIVE操作-工作流.xml属性不会传递给子任务