hadoop - Hadoop 如何管理负载均衡

标签 hadoop load-balancing

关闭。这个问题需要更多 focused .它目前不接受答案。












想改进这个问题?更新问题,使其仅关注一个问题 editing this post .

4年前关闭。




Improve this question




我刚刚开始研究 Hadoop。
我想知道hadoop如何管理负载平衡。

如果我在一个集群中有 5 个节点,那么 hadoop 如何确保每个节点具有相同的工作负载?
Hadoop 是否有任何算法用于负载平衡?

你能帮我学习Hadoop吗?

最佳答案

我假设您指的是 YARN,即 ResourceManager,而不是 HDFS,即文件系统。

YARN 不保证也不保证平等处理。

在 MapReduce 方面,如果您的数据严重偏向特定的 key 对,那么一个节点的一个进程将成为工作的瓶颈。

如果您的意思是 HDFS,那么实际上有一种称为 HDFS 重新平衡器的东西,但这是为了确保您的数据在集群内公平分布,以便作业可以在“数据局部性”方面更好地分布。但是,这仍然无助于数据的偏度。

关于hadoop - Hadoop 如何管理负载均衡,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46140557/

相关文章:

java - 如何在 Spring xml 中向 Camel http-balancer 添加转换?

kubernetes - Traefik 负载平衡重量未按预期工作

hadoop - 在hadoop中备份源数据文件

java - 想上传一个文件到一个文件夹,获取上传的文件名

hadoop - org.apache.hadoop.fs.s3native.NativeS3FileSystem 未找到

hadoop - Apache Spark 是同时读取和处理,还是先读取内存中的整个文件然后开始转换?

ssl - 如何使用 HAproxy 为多个域设置 SSL 直通?

streaming - 如何平衡文件流中的带宽负载?

amazon-ec2 - "Channel shutdown: connection error"

c# - Microsoft AVRO 是否能够序列化 ConcurrentDictionary?