hadoop - 所有 map task 均达到100％，但仍处于运行状态

标签 hadoop mapreduce hbase

在我的MR作业中，该作业使用HFileOutputFormat进行批量加载，生成了87个 map task ，并且在大约20分钟内，所有任务都达到了100％。但是，单独的任务状态仍在hadoop管理页面中处于“正在运行”状态，并且没有一个状态移至完成状态。 reducer 始终处于挂起状态，永远不会启动。我只是等待，但是30分钟超时后它出错了。

我的工作必须加载150多个左右的列。我尝试用更少的列数运行相同的MR作业，并且很容易完成。知道为什么 map task 即使达到100％后也没有移动到完成状态？

最佳答案

一个可能的原因是发出的输出数据巨大。对其进行排序，然后将其写回磁盘将是一件耗时的事情。通常情况并非如此。
检查日志并寻找改善map-reduce代码的方法甚至是明智的。

关于hadoop - 所有 map task 均达到100％，但仍处于运行状态，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16856965/

上一篇：macos - Hadoop Namenode格式在Mac上失败

下一篇：hadoop - 如何找到运行Pig作业的节点

相关文章：

Hadoop 源代码

java - LongComparator 不适用于具有 HBase API 的 Google Cloud Bigtable

hadoop - 使用Cloudera VMware安装Hadoop

hadoop - pyspark : how to check if a file exists in hdfs

java - hadoop mapreduce teragen FAIL_CONTAINER_CLEANUP

map - JobConf 中未设置输出目录

java - Hadoop MapReduce作业可实现最高频率

hadoop - 如何从两个时代的时间戳计算 hive 中hh:mm:ss的差异？

lucene - 结构化和非结构化索引 - Lucene 和 Hbase

java - Spark 到 Hbase 表未显示完整的数据记录