无论我是从不同的客户端服务器还是从同一个服务器提交一堆 hadoop 作业,它对资源有任何可衡量的影响吗?我认为不会,因为所有工作都是在集群中完成的。这是正确的吗?
最佳答案
提交给 Hadoop 集群的客户端唯一占用大量资源的是输入拆分的计算。当输入数据很大或从同一个客户端提交了太多作业时,由于输入拆分计算,作业提交可能会变得有点慢。
我不记得 Hadoop 版本或参数,但包含一个可配置参数,用于将输入拆分的计算从提交作业的客户端转移到 Hadoop 集群。
关于hadoop - 我从哪里提交 hadoop 作业重要吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14421975/