java - 安装hadoop并编写map reduce程序

标签 java hadoop mapreduce

对于一个主题,我已经完成了这项作业。

To make a hadoop cluster and write map reduce programs.



我有一台配备4GB内存和i3处理器的笔记本电脑,我从cloudera网站下载了vmware镜像。但是预先配置的虚拟机本身需要4GB RAM。

作业文本说

install the Hadoop Distribution of Cloudera (http://www.cloudera.com/hadoop/) in Pseudo-Distributed Mode or use the VMWare Image provided by Cloudera to familiarize yourself with Hadoop, especially with the distributed file system HDFS and the implementation of MapReduce programs in Java."



我从cloudera网站下载了vmware镜像,但是预先配置的虚拟机本身需要4GB RAM。

我曾尝试将虚拟机内存的大小从4GB减小到1GB,但这并不好。我的意思是我无法运行cloudera虚拟机。

我有很多mapreduce和java程序,这些作业让我去做。我无法理解其中任何一个。喜欢
  • 在多台计算机上执行“grep”。
  • 计算在hadoop集群等中分布在多台计算机上的文件上的单词频率。

  • 我想知道如何设置hadoop,使其在Windows8.1机器上运行
    这样我就可以运行这些程序

    最佳答案

    Cloudera VM需要6-8GB才能正常运行。

    当我上大学的Hadoop类(class)时,要求我们为所有小于8GB的计算机购买更多的RAM,虽然我们拥有i5,但是VM仍然非常慢。

    默认情况下,即使仅安装Hadoop并在VM外部单独运行服务,也至少需要4GB。这还不包括您的操作系统和其他服务(您的浏览器和操作系统可能已经单独占用了1GB)。

    至于在Windows上实际安装Hadoop的情况,我不建议这样做,但是粗略的步骤是

  • 安装Java。将JAVA_HOME添加为环境变量
  • 在Windows计算机上安装并运行SSH服务器。确保可以使用PuTTy连接到localhost:22,例如
  • 然后使用Apache网站下载并配置Hadoop,而不是在其他地方可能会过时的随机教程。从Single Node开始,然后配置伪分布式。提取Hadoop下载文件后,立即将HADOOP_PREFIXHADOOP_CONF_DIR=%HADOOP_PREFIX%/conf添加为两个环境变量


    • doing a "grep" on multiple machines
    • Counting word frequency on files


    这两个都是文档中给出的示例。不确定您是否需要实际编写该代码。
  • grep
  • wordcount


  • FWIW,您实际上不需要运行的Hadoop集群即可运行MapReduce。默认的Hadoop配置将从您的单个本地文件系统中读取。此外,您的VM还是单台机器,因此“在多台机器上运行”的要求没有多大意义。

    关于java - 安装hadoop并编写map reduce程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52732804/

    相关文章:

    javascript - Spring 框架——未找到 JavaScript 文件的映射

    java - 小程序无法在浏览器上运行

    java - 无法从方法 (Java) 获得正确的 boolean 值输出

    r - 找不到Hadoop输入路径

    hadoop - Spark 尝试连接到本地主机而不是配置的服务器

    hadoop - 在 Mapreduce 中,复制是否也适用于中间数据?

    hadoop - 为什么分割点在 Hadoop 总顺序分区器上乱序?

    java - 我需要帮助来了解下一步如何尝试为 Android 创建 ListView

    linux - Hadoop启动-dfs脚本调试

    mongodb - Mongodb Mapreduce - 半径内用户的热门场所