我在 HDFS 上有一个目录目录,我想遍历这些目录。有什么简单的方法可以使用 SparkContext 对象对 Spark 执行此操作?
最佳答案
您可以使用 org.apache.hadoop.fs.FileSystem
.具体来说,FileSystem.listFiles([path], true)
还有 Spark...
FileSystem.get(sc.hadoopConfiguration).listFiles(..., true)
编辑
值得注意的是,获取与Path
方案相关联的FileSystem
是一个很好的做法。
path.getFileSystem(sc.hadoopConfiguration).listFiles(path, true)
关于hadoop - Spark 迭代 HDFS 目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27023766/