hadoop - Spark 迭代 HDFS 目录

我在 HDFS 上有一个目录目录，我想遍历这些目录。有什么简单的方法可以使用 SparkContext 对象对 Spark 执行此操作？

最佳答案

您可以使用 org.apache.hadoop.fs.FileSystem .具体来说，FileSystem.listFiles([path], true)

还有 Spark...

FileSystem.get(sc.hadoopConfiguration).listFiles(..., true)

编辑

值得注意的是，获取与Path 方案相关联的FileSystem 是一个很好的做法。

path.getFileSystem(sc.hadoopConfiguration).listFiles(path, true)

关于hadoop - Spark 迭代 HDFS 目录，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27023766/

相关文章：

apache-spark - Spark 数据集超过总内存大小