hadoop - Hadoop MapReduce的隐藏功能

每个开发人员都应该知道Hadoop MapReduce的隐藏功能是什么？

请为每个答案提供一项隐藏功能。

最佳答案

这里有一些技巧和窍门http://allthingshadoop.com/2010/04/28/map-reduce-tips-tricks-your-first-real-cluster/

从那里特别要注意的一点是，每个开发人员都应该意识到:

在您的Java代码中，有一个小技巧可以帮助工作在尚未完成但只是在努力工作的任务集群中被“感知”。在执行任务期间，如果没有写出作业，则不会内置报告作业正在按预期运行。因此，这意味着如果您的任务占用大量时间进行工作，则群集可能会看到该任务失败(基于mapred.task.tracker.expiry.interval设置)。

不用担心，有一种方法可以告诉集群您的任务做得很好。您有2种方法可以报告状态或增加计数器。这两种方法都会导致任务跟踪器正确地知道任务正常，而任务跟踪器会依次看到它。这两个选项都在JavaDoc http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/Reporter.html中进行了说明

关于hadoop - Hadoop MapReduce的隐藏功能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4443562/

上一篇：mongodb - 将MongoDB与Docker结合使用时如何创建新的数据库和集合？

下一篇：服务 env_file 的 Docker-compose 错误

hadoop - MapReduce卡住为99％

Java Hadoop : How can I create mappers that take as input files and give an output which is the number of lines in each file?

hadoop - MultitpleOutputFormat-Hadoop

hadoop - 在 EMR Spark 上，JDBC 加载第一次失败，然后工作

hadoop - 哪些版本的 HBase 和 Hive 兼容？

hadoop - GCP Hadoop数据仓库？

hadoop - 在hadoop中，我只想在每个节点上执行自己自定义的程序

hadoop - 如何将reduce分区放入hadoop集群中设计的机器中？

hadoop - 集群中多个文件的并行处理