hadoop - Hadoop MapReduce 中的排序和混洗优化

标签 hadoop mapreduce

我正在寻找基于 Hadoop 的研究/实现项目，我偶然发现了维基页面上发布的列表 - http://wiki.apache.org/hadoop/ProjectSuggestions .但是，此页面最后一次更新是在 2009 年 9 月。因此，我不确定其中的一些想法是否已经实现。我对“MR 框架中的排序和随机播放优化”特别感兴趣，它谈到“在随机播放之前组合机架或节点上的几个映射的结果。这可以减少查找工作和中间存储”。

有没有人试过这个？这是在当前版本的 Hadoop 中实现的吗？

最佳答案

有组合器功能(如 http://wiki.apache.org/hadoop/HadoopMapReduce 的“组合”部分所述)，这或多或少是内存中的随机播放。但我相信组合器只会聚合单个 map 作业的键值对，而不是给定节点或机架的所有键值对。

关于hadoop - Hadoop MapReduce 中的排序和混洗优化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5085015/

上一篇：hadoop - HBASE 和 Neo4j 哪个更好

下一篇：hadoop - 如何在 hadoop 中查看标准输出？

相关文章：

javascript - MongoDB map 减少查找字谜

Hadoop哪个节点会将输入数据分割到多个 block ？

java - Hadoop 矩阵乘法

java - Hadoop:如何获取 CombineFileInputFormat 中的每个文件路径？

java - eclipse中hadoop中的protoc错误

hadoop - Apache Mahout 数据库到序列文件

hadoop - 使用 Kerberos 从另一个作业的 java 操作提交 Oozie 作业

hadoop - 级联拼花抛出ClassNotFoundException

java - 用oozie触发Pig工作

python - PySpark(Python 2.7): How to flatten values after reduce