hadoop - Hadoop-需要帮助以了解处理步骤

标签 hadoop mapreduce

我有压缩文件,它包含8个大小为5-10kb的xml文件。我将这些数据用于测试目的。我编写了一个仅 map 程序来解压缩压缩文件。我wrote program in MR2 and using Hadoop 2.7.1 in psuedo distributed mode。我使用sbin/start-dfs.sh命令启动集群。我可以在几秒钟内看到文件系统中的解压缩输出,但是处理将继续进行接下来的5-6分钟。不知道为什么

enter image description here

MR程序将文件解压缩到此阶段,我可以查看/下载这些文件。

enter image description here

无法了解我的mapreduce程序正在执行什么处理。我am using MR2 API in my code and why it is using MR1 API(mapred) here?当我有128mb的压缩文件,并且在5-10分钟内未压缩它并在其他时间忙于执行其他任务时,情况变得更糟。

我获得的性能令人无法接受,需要了解第二个屏幕快照中处理hadoop的功能。

请帮助我了解是安装问题,程序问题还是其他问题?

最佳答案

这是一个配置问题,我可以通过更改mapred-site.xml文件来解决。

<configuration>
<property>  
 <name>mapreduce.framework.name</name>  
 <value>yarn</value>  
 </property>
</configuration>

关于hadoop - Hadoop-需要帮助以了解处理步骤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32787996/

相关文章:

hadoop - 将项目发送到特定分区

linux - HDFS文件权限问题

hadoop - Apache Falcon数据备份

hadoop - Hadoop/AWS弹性 map 会降低性能

hadoop - 无法打开 map-reduce 输出 url

java - hadoop方法将输出发送到多个目录

hadoop - Apache Flink 与 Hadoop 上的 Mapreduce 相比如何?

hadoop - Apache 点燃 : What are the dependencies of IgniteHadoopIgfsSecondaryFileSystem?

hadoop - hadoop reducer 的 reduce() 调用可以接收的最大记录数是多少?

java - 远程运行 MapReduce