我的hdfs文件很少,我想在Spark中使用它们。输入以下命令后,我可以看到我的文件:
bin/hadoop dfs -ls /input
我应该如何在spark中指定此文件的路径以创建RDD:
val input=sc.textFile("???")
最佳答案
如果您的Spark安装配置正确,那么正常的HDFS路径也应该在Spark中按原样工作:
val input = sc.textFile("/input")
如果这不起作用,那么您可能需要确保您的Spark配置为properly picking up your Hadoop conf dir。
您可能还想尝试直接从Spark代码检查文件列表,以确保正确导入了配置:
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs._
val path = new Path("/input")
path.getFileSystem(new Configuration()).listStatus(path)
关于ubuntu - 使用HDFS中的文件到Apache Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38033949/