java - 安装hadoop并编写map reduce程序

对于一个主题，我已经完成了这项作业。

To make a hadoop cluster and write map reduce programs.

我有一台配备4GB内存和i3处理器的笔记本电脑，我从cloudera网站下载了vmware镜像。但是预先配置的虚拟机本身需要4GB RAM。

作业文本说

install the Hadoop Distribution of Cloudera (http://www.cloudera.com/hadoop/) in Pseudo-Distributed Mode or use the VMWare Image provided by Cloudera to familiarize yourself with Hadoop, especially with the distributed file system HDFS and the implementation of MapReduce programs in Java."

我从cloudera网站下载了vmware镜像，但是预先配置的虚拟机本身需要4GB RAM。

我曾尝试将虚拟机内存的大小从4GB减小到1GB，但这并不好。我的意思是我无法运行cloudera虚拟机。

我有很多mapreduce和java程序，这些作业让我去做。我无法理解其中任何一个。喜欢

在多台计算机上执行“grep”。

计算在hadoop集群等中分布在多台计算机上的文件上的单词频率。

我想知道如何设置hadoop，使其在Windows8.1机器上运行
这样我就可以运行这些程序

最佳答案

Cloudera VM需要6-8GB才能正常运行。

当我上大学的Hadoop类(class)时，要求我们为所有小于8GB的计算机购买更多的RAM，虽然我们拥有i5，但是VM仍然非常慢。

默认情况下，即使仅安装Hadoop并在VM外部单独运行服务，也至少需要4GB。这还不包括您的操作系统和其他服务(您的浏览器和操作系统可能已经单独占用了1GB)。

至于在Windows上实际安装Hadoop的情况，我不建议这样做，但是粗略的步骤是

安装Java。将JAVA_HOME添加为环境变量

在Windows计算机上安装并运行SSH服务器。确保可以使用PuTTy连接到localhost:22，例如

然后使用Apache网站下载并配置Hadoop，而不是在其他地方可能会过时的随机教程。从Single Node开始，然后配置伪分布式。提取Hadoop下载文件后，立即将HADOOP_PREFIX和HADOOP_CONF_DIR=%HADOOP_PREFIX%/conf添加为两个环境变量

doing a "grep" on multiple machines

Counting word frequency on files

这两个都是文档中给出的示例。不确定您是否需要实际编写该代码。

grep

wordcount

FWIW，您实际上不需要运行的Hadoop集群即可运行MapReduce。默认的Hadoop配置将从您的单个本地文件系统中读取。此外，您的VM还是单台机器，因此“在多台机器上运行”的要求没有多大意义。

关于java - 安装hadoop并编写map reduce程序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52732804/

java - 安装hadoop并编写map reduce程序

上一篇：docker - 从dockerfile无法安装pip

下一篇：docker - 将RUN命令放在一行中可以加快构建速度吗？