java - Hadoop单伪分布式节点集群中的问题

标签 java hadoop mapreduce

我正在尝试在伪分布式中设置hadoop服务器,以允许map / reduce任务并行执行。现在,当我运行作业时,控制台输出以下行:

Running job: job_local1508664063_0001

这意味着我处于本地模式,因此对所有任务进行排序是正常的。这是我当前的配置,我必须编辑什么才能让hadoop运行并行映射任务/ reduce task ?
(我使用start-dfs和start-yarn运行hadoop服务器)

mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

    <property>
        <name>mapreduce.jobtracker.address</name>
        <value>mymachine:54311</value>
        <description>The host and port that the MapReduce job tracker runs
        at.  If "local", then jobs are run in-process as a single map
        and reduce task.
        </description>
    </property>

    <property>
        <name>mapreduce.jobtracker.http.address</name>
        <value>mymachine:50030</value>
        <description>The host and port that the MapReduce job tracker runs
        at.  If "local", then jobs are run in-process as a single map
        and reduce task.
        </description>
    </property>

</configuration>

mymachine是服务器的帐户名。我也尝试使用ip获取相同的结果,作业管理器仍将服务器视为“本地”。
当前作业将创建12个映射任务,并且这些任务将按顺序运行。

如该线程中所述:

stackoverflow.com/questions/26267476/为什么我的 map 减少工作是按顺序运行

PS:为确保配置已加载,在我的Java Web服务中,我使用以下命令进行了冗余设置:
conf.set("mapreduce.jobtracker.address", "mymachine:54311");
conf.set("mapreduce.jobtracker.http.address", "mymachine:50030");

而且我还设置了资源以允许多个容器==>并行 map task

(i7 4 / 8、8GB内存)
conf.set("yarn.nodemanager.resource.memory-mb", "6144");
conf.set("yarn.nodemanager.resource.cpu-vcores", "8");
conf.set("yarn.scheduler.minimum-allocation-mb", "1024");

我应该如何修改我的配置?我的hadoop版本是2.7.1

最佳答案

在hadoop 2.x中,没有jobtracker和tasktrakers。那是来自hadoop1.x。

我正在github上维护一个脚本,该脚本从头开始设置hadoop。您会发现它很有用。它包含最少的Hadoop配置以供入门。

https://github.com/hadoopfromscratch/hadoopfromscratch/

关于java - Hadoop单伪分布式节点集群中的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41551780/

相关文章:

hadoop - "code moving to data"而不是数据转码的原理是什么?

java - 从 IntelliJ 生成 .JAR

java - 如何同时显示2个不同的面板?

java - 如何获取节点周围的文本?

hadoop - Hive - 删除重复项,保留最新记录 - 所有这些

python - 可以在 Azure HDInsight 中使用 Hadoop Streaming API 运行 python 代码吗?

java - 更新正在使用的 .jar 文件

hadoop - 如何在Pig的组函数中使用Bincode运算符

hadoop - 类型为 boolean 的分区在 Hive 中总是为真

scala - 小于 spark scala rdd 中日期的比较