关闭。这个问题需要更多 focused .它目前不接受答案。
想改进这个问题?更新问题,使其仅关注一个问题 editing this post .
4年前关闭。
Improve this question
我刚刚开始研究 Hadoop。
我想知道hadoop如何管理负载平衡。
如果我在一个集群中有 5 个节点,那么 hadoop 如何确保每个节点具有相同的工作负载?
Hadoop 是否有任何算法用于负载平衡?
你能帮我学习Hadoop吗?
最佳答案
我假设您指的是 YARN,即 ResourceManager,而不是 HDFS,即文件系统。
YARN 不保证也不保证平等处理。
在 MapReduce 方面,如果您的数据严重偏向特定的 key 对,那么一个节点的一个进程将成为工作的瓶颈。
如果您的意思是 HDFS,那么实际上有一种称为 HDFS 重新平衡器的东西,但这是为了确保您的数据在集群内公平分布,以便作业可以在“数据局部性”方面更好地分布。但是,这仍然无助于数据的偏度。
关于hadoop - Hadoop 如何管理负载均衡,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46140557/