ubuntu - 使用HDFS中的文件到Apache Spark

我的hdfs文件很少，我想在Spark中使用它们。输入以下命令后，我可以看到我的文件:

bin/hadoop dfs -ls /input

我应该如何在spark中指定此文件的路径以创建RDD:

val input=sc.textFile("???")

最佳答案

如果您的Spark安装配置正确，那么正常的HDFS路径也应该在Spark中按原样工作:

val input = sc.textFile("/input")

如果这不起作用，那么您可能需要确保您的Spark配置为properly picking up your Hadoop conf dir。

您可能还想尝试直接从Spark代码检查文件列表，以确保正确导入了配置:

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs._

val path = new Path("/input")
path.getFileSystem(new Configuration()).listStatus(path)

关于ubuntu - 使用HDFS中的文件到Apache Spark，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38033949/

上一篇：docker - docker-compose up -d尝试在docker-compose.yml文件中设置mem_limit时给出 “OCI runtime create failed: wrong rlimit value”

下一篇：docker - 对Docker容器应用程序使用Docker Nginx反向代理

相关文章：

hadoop - Hiveserver2 Kerberos

java - Titan 节点未启动

java - 找不到java类: NoClassDefFoundError: KTEngine (Kinetic Typography tool)

scala - 使用hadoop和spark在Azure上使用WordCount

sql - Scala/Apache Spark 转换 DataFrame 列值和类型，否则为多个

python - 将机器学习模型保存/覆盖为 spark 集群中的单个文件

apache-spark - Web UI 如何计算存储内存(在 Executors 选项卡中)？

linux - 我可以将 bash 脚本转换为 Linux 软件吗？

c++ - 从源 : libstdc++. so.6 : version `CXXABI_1.3.8' not found (required by/usr/lib/x86_64-linux-gnu/libicuuc. so.55 构建 gcc 4.8.3 时出错)

hadoop - tensorflow 和 hadoop 的兼容性