hadoop - Spark 迭代 HDFS 目录

标签 hadoop hdfs apache-spark

我在 HDFS 上有一个目录目录,我想遍历这些目录。有什么简单的方法可以使用 SparkContext 对象对 Spark 执行此操作?

最佳答案

您可以使用 org.apache.hadoop.fs.FileSystem .具体来说,FileSystem.listFiles([path], true)

还有 Spark...

FileSystem.get(sc.hadoopConfiguration).listFiles(..., true)

编辑

值得注意的是,获取与Path 方案相关联的FileSystem 是一个很好的做法。

path.getFileSystem(sc.hadoopConfiguration).listFiles(path, true)

关于hadoop - Spark 迭代 HDFS 目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27023766/

相关文章:

apache-spark - Spark 数据集超过总内存大小

hadoop - 数据移动 HDFS 与并行文件系统与 MPI

java - 在数据集 Apache Spark 上应用转换

apache-spark - 使用 Spark 和 HiveSQL 执行多个查询的问题

json - 协同过滤 spark python

python - 在 Python 中运行 Hive 查询?

caching - 缓存是 spark 相对于 map-reduce 的唯一优势吗?

video - 使用 hadoop 进行图像处理

hadoop - 我可以在每个从节点中使用分段文件运行 Spark 吗?

hive - Metastore 中的分区,但 HDFS 中不存在路径