我刚刚写了我的第一篇Hadoop工作。它处理许多文件并为每个输入文件生成多个输出文件。我在两节点群集上运行它,最大的输入集大约需要10分钟。查看下面的计数器,我可以做哪些优化来使其运行更快?在这些计数器中是否有任何需要寻找的特定指标-
版本:2.0.0-mr1-cdh4.1.2
map task 容量:20
reduce task 量:20
每个节点的平均任务数:20
最佳答案
我们可以在这里看到大多数数据缩减发生在映射阶段(映射输出字节数远小于HDFS读取字节数,与映射输入记录相同-它远低于映射输入记录)。我们还看到,花费了大量的CPU时间。我们还看到少量的改组字节
所以这项工作是:
a)在Map阶段完成了大量数据缩减。
b)作业受CPU限制。
因此,我认为应该优化mapper和reducer的代码。 I / O对于这项工作可能并不重要。
关于optimization - Hadoop计数器-调整和优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14528362/