hadoop:0 reducer 和 identity reducer 之间的区别？

我只是想确认我对 0 reducer 和 identity reducer 之间区别的理解。

0 reducer 意味着 reduce 步骤将被跳过，mapper 输出将是最终输出
Identity reducer 意味着洗牌/排序仍然会发生吗？

最佳答案

你的理解是正确的。我将其定义如下: 如果您不需要对 map 结果进行排序 - 您可以设置 0 减少，并且该作业仅称为 map 。
如果您需要对映射结果进行排序，但不需要任何聚合——您可以选择 identity reducer。
为了完成这幅图，我们有第三种情况:我们确实需要聚合，在这种情况下我们需要缩减器。

关于hadoop:0 reducer 和 identity reducer 之间的区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10630447/

上一篇：hadoop - Hive 无法手动设置 reducer 的数量

下一篇：hadoop - 无法启动cygwin sshd服务

xml - Hadoop Hive XPaths仅返回阵列的一部分

java - MapReduce 作业挂起

hadoop - 没有 Hadoop 的 Spark : Failed to Launch

java - 在第二次MR期间未创建文件

hadoop - MapReduce 不适合哪些任务？

java - Mapreduce 作业到 HBase 抛出 IOException : Pass a Delete or a Put

hadoop - Mapreduce 在访问 master 机器上的 datanode 时返回错误

amazon - 在Amazon Mapreduce中运行的Pig脚本中的STREAM关键字

maven - 如何使用 Maven 构建 Hadoop 作业