optimization - Hadoop计数器-调整和优化

标签 optimization hadoop cloudera performance

我刚刚写了我的第一篇Hadoop工作。它处理许多文件并为每个输入文件生成多个输出文件。我在两节点群集上运行它,最大的输入集大约需要10分钟。查看下面的计数器,我可以做哪些优化来使其运行更快?在这些计数器中是否有任何需要寻找的特定指标-

版本:2.0.0-mr1-cdh4.1.2

map task 容量:20

reduce task 量:20

每个节点的平均任务数:20

最佳答案

我们可以在这里看到大多数数据缩减发生在映射阶段(映射输出字节数远小于HDFS读取字节数,与映射输入记录相同-它远低于映射输入记录)。我们还看到,花费了大量的CPU时间。我们还看到少量的改组字节
所以这项工作是:
a)在Map阶段完成了大量数据缩减。
b)作业受CPU限制。

因此,我认为应该优化mapper和reducer的代码。 I / O对于这项工作可能并不重要。

关于optimization - Hadoop计数器-调整和优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14528362/

相关文章:

linux - 如何在 linux 的 hdfs super 组中添加用户?

hadoop - 如何在Cloudera Manager 6.3中配置 ‘‑‑enable_orc_scanner’以实现目标,我的impala版本是3.2

php - 在 while 循环内加速 mysql 查询

c++ - 让 gcc 将一系列 BYTE 比较转换为 WORD/DWORD/QWORD

c++ - 在 C++ 中实现长方程时,如何通过高级方法提高性能

MySQL InnoDB 锁定统计

streaming - 从失败的 Hadoop 作业中恢复标准输出

hadoop - 如何在 Apache NiFi 中处理同名文件?

hadoop - Spark java.io.EOFException : Premature EOF: no length prefix available

hadoop - 执行字数统计 mapreduce 作业时出现 InterruptedException