apache-spark - Spark，使用本地硬盘代替hadoop

标签 apache-spark hadoop

如https://www.linode.com/docs/databases/hadoop/install-configure-run-spark-on-top-of-hadoop-yarn-cluster/所述，我设法运行了hadoop和spark

但是，作为一个初学者，我发现在本地计算机上运行简短的示例更加容易。

例如，对于代码airportsNameAndCityNames.saveAsTextFile("out/airports_by_latitude.text")
与我目前不知道如何使用编辑器查看的/home/foo/out/airports_by_latitude.text相比，查看hdfs://node-master:9000/user/hadoop/out/airports_by_latitude.text更加容易。

所以我的问题是，运行spark时是否有一种使用本地存储(不是hadoop)的方法

我发现如果我在下面注释掉HADOOP_HOME(有效地使HADOOP_CONF_DIR无效)，它似乎在本地存储上运行(而不是hadoop)，但是想知道是否还有更优雅的方法。

export SPARK_HOME=/usr/local/spark
export LD_LIBRARY_PATH=/usr/local/hadoop/lib/native:$LD_LIBRARY_PATH
export PATH=$SPARK_HOME/bin:$PATH

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

最佳答案

一种非常简单的方法是显式指定要读取的文件系统:

sc.textFile("file:///home/foo/out/airports_by_latitude.text")

关于apache-spark - Spark，使用本地硬盘代替hadoop，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56565165/

上一篇：networking - 多个 Bluemix Docker 容器的相同 IP 地址

下一篇：docker - 两个 Docker 容器之间的 "java.net.NoRouteToHostException: No route to host"

相关文章：

hadoop - 远程连接Hbase时出现信息问题

r - sparkR hdfs 错误 - 服务器 IPC 版本 9 无法与客户端版本 4 通信

hadoop - 在 Hive 中创建外部 Avro 表时，Sqoop 导入为 Avro 数据文件时将所有值都设为 NULL

apache-spark - 将命令行参数传递给 Spark-shell

scala - 在 Windows 7 上运行 spark-submit 后无法删除临时文件

java - 为 hadoop MapReduce Cleanup 添加进度跟踪机制

hadoop - 自定义分区程序，无需设置 reducer 数量

Hadoop安装错误， "error : cannot execute hdfs-config.sh."

java - 如何使用spark和java在mysql中插入模型

java - 获取 Spark 的流窗口时间戳