hadoop - Hadoop MapReduce 中的排序和混洗优化

标签 hadoop mapreduce

我正在寻找基于 Hadoop 的研究/实现项目,我偶然发现了维基页面上发布的列表 - http://wiki.apache.org/hadoop/ProjectSuggestions .但是,此页面最后一次更新是在 2009 年 9 月。因此,我不确定其中的一些想法是否已经实现。我对“MR 框架中的排序和随机播放优化”特别感兴趣,它谈到“在随机播放之前组合机架或节点上的几个映射的结果。这可以减少查找工作和中间存储”。

有没有人试过这个?这是在当前版本的 Hadoop 中实现的吗?

最佳答案

有组合器功能(如 http://wiki.apache.org/hadoop/HadoopMapReduce 的“组合”部分所述),这或多或少是内存中的随机播放。但我相信组合器只会聚合单个 map 作业的键值对,而不是给定节点或机架的所有键值对。

关于hadoop - Hadoop MapReduce 中的排序和混洗优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5085015/

相关文章:

javascript - MongoDB map 减少查找字谜

Hadoop哪个节点会将输入数据分割到多个 block ?

java - Hadoop 矩阵乘法

java - Hadoop:如何获取 CombineFileInputFormat 中的每个文件路径?

java - eclipse中hadoop中的protoc错误

hadoop - Apache Mahout 数据库到序列文件

hadoop - 使用 Kerberos 从另一个作业的 java 操作提交 Oozie 作业

hadoop - 级联拼花抛出ClassNotFoundException

java - 用oozie触发Pig工作

python - PySpark(Python 2.7): How to flatten values after reduce