hadoop - 已安装 Spark 但未找到命令 'hdfs' 或 'hadoop'

标签 hadoop apache-spark hdfs pyspark spark-dataframe

我是 pyspark 的新用户。 我刚刚下载并安装了一个 spark 集群(“spark-2.0.2-bin-hadoop2.7.tgz”) 安装后我想访问文件系统(将本地文件上传到集群)。但是当我尝试在命令中输入 hadoop 或 hdfs 时,它会说“找不到命令”。

我要安装 hadoop/HDFS(我以为它内置在 spark 中,我不明白)?

提前致谢。

最佳答案

您必须先安装 hadoop 才能访问 HDFS。 关注这个http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

从 apache 站点选择最新版本的 hadoop。 完成 hadoop 设置后,转到 spark http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz下载这个,提取文件。在 spark-env.sh 中设置 java_home 和 hadoop_home。

关于hadoop - 已安装 Spark 但未找到命令 'hdfs' 或 'hadoop',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40654869/

相关文章:

scala - Spark的最终任务比前199次需要100倍的时间,如何改进

hadoop - 用户是否需要在所有节点上都存在才能被hadoop集群/HDFS识别?

hadoop - 如何解决二十个新闻组分类示例上的加载主类MahoutDriver错误

apache-spark - 将数据湖与已删除的记录同步

scala - 如何在连接中将 Column.isin 与数组列一起使用?

scala - 在 Scala 的 split() 方法中使用单引号和双引号有什么区别?

hadoop - MRUnit 不适用于 MultipleOutputs

hadoop - hadoop fs -ls:从服务器/127.0.1.1到本地主机的调用失败

hadoop - Zookeeper和Storm的错误

java - 如何在 Pig Latin 中将十六进制转换为十进制?