我正在寻找基于 Hadoop 的研究/实现项目,我偶然发现了维基页面上发布的列表 - http://wiki.apache.org/hadoop/ProjectSuggestions .但是,此页面最后一次更新是在 2009 年 9 月。因此,我不确定其中的一些想法是否已经实现。我对“MR 框架中的排序和随机播放优化”特别感兴趣,它谈到“在随机播放之前组合机架或节点上的几个映射的结果。这可以减少查找工作和中间存储”。
有没有人试过这个?这是在当前版本的 Hadoop 中实现的吗?
最佳答案
有组合器功能(如 http://wiki.apache.org/hadoop/HadoopMapReduce 的“组合”部分所述),这或多或少是内存中的随机播放。但我相信组合器只会聚合单个 map 作业的键值对,而不是给定节点或机架的所有键值对。
关于hadoop - Hadoop MapReduce 中的排序和混洗优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5085015/