hadoop - 我从哪里提交 hadoop 作业重要吗？

无论我是从不同的客户端服务器还是从同一个服务器提交一堆 hadoop 作业，它对资源有任何可衡量的影响吗？我认为不会，因为所有工作都是在集群中完成的。这是正确的吗？

最佳答案

提交给 Hadoop 集群的客户端唯一占用大量资源的是输入拆分的计算。当输入数据很大或从同一个客户端提交了太多作业时，由于输入拆分计算，作业提交可能会变得有点慢。

我不记得 Hadoop 版本或参数，但包含一个可配置参数，用于将输入拆分的计算从提交作业的客户端转移到 Hadoop 集群。

关于hadoop - 我从哪里提交 hadoop 作业重要吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14421975/

相关文章：

oracle - 每月定期进行数据过滤