java - Hadoop单伪分布式节点集群中的问题

我正在尝试在伪分布式中设置hadoop服务器，以允许map / reduce任务并行执行。现在，当我运行作业时，控制台输出以下行:

Running job: job_local1508664063_0001

这意味着我处于本地模式，因此对所有任务进行排序是正常的。这是我当前的配置，我必须编辑什么才能让hadoop运行并行映射任务/ reduce task ？
(我使用start-dfs和start-yarn运行hadoop服务器)

mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

    <property>
        <name>mapreduce.jobtracker.address</name>
        <value>mymachine:54311</value>
        <description>The host and port that the MapReduce job tracker runs
        at.  If "local", then jobs are run in-process as a single map
        and reduce task.
        </description>
    </property>

    <property>
        <name>mapreduce.jobtracker.http.address</name>
        <value>mymachine:50030</value>
        <description>The host and port that the MapReduce job tracker runs
        at.  If "local", then jobs are run in-process as a single map
        and reduce task.
        </description>
    </property>

</configuration>

mymachine是服务器的帐户名。我也尝试使用ip获取相同的结果，作业管理器仍将服务器视为“本地”。
当前作业将创建12个映射任务，并且这些任务将按顺序运行。

如该线程中所述:

stackoverflow.com/questions/26267476/为什么我的 map 减少工作是按顺序运行

PS:为确保配置已加载，在我的Java Web服务中，我使用以下命令进行了冗余设置:

conf.set("mapreduce.jobtracker.address", "mymachine:54311");
conf.set("mapreduce.jobtracker.http.address", "mymachine:50030");

而且我还设置了资源以允许多个容器==>并行 map task

(i7 4 / 8、8GB内存)

conf.set("yarn.nodemanager.resource.memory-mb", "6144");
conf.set("yarn.nodemanager.resource.cpu-vcores", "8");
conf.set("yarn.scheduler.minimum-allocation-mb", "1024");

我应该如何修改我的配置？我的hadoop版本是2.7.1

最佳答案

在hadoop 2.x中，没有jobtracker和tasktrakers。那是来自hadoop1.x。

我正在github上维护一个脚本，该脚本从头开始设置hadoop。您会发现它很有用。它包含最少的Hadoop配置以供入门。

https://github.com/hadoopfromscratch/hadoopfromscratch/

关于java - Hadoop单伪分布式节点集群中的问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41551780/

java - Hadoop单伪分布式节点集群中的问题

上一篇：docker - 如何确定我已经登录过的注册表？

下一篇：docker - 确定为什么 docker 镜像无法在 swarm 模式下运行，但可以通过 compose 使用相同的 yml 文件