hadoop - Pyspark:获取 HDFS 路径上的文件/目录列表

标签 hadoop apache-spark pyspark

如题。我知道 textFile 但正如其名称所示,它仅适用于文本文件。 我需要访问 HDFS 或本地路径上路径内的文件/目录。我正在使用 pyspark。

最佳答案

使用 JVM 网关可能不是那么优雅,但在某些情况下,下面的代码可能会有所帮助:

URI           = sc._gateway.jvm.java.net.URI
Path          = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem    = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration


fs = FileSystem.get(URI("hdfs://somehost:8020"), Configuration())

status = fs.listStatus(Path('/some_dir/yet_another_one_dir/'))

for fileStatus in status:
    print(fileStatus.getPath())

关于hadoop - Pyspark:获取 HDFS 路径上的文件/目录列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35750614/

相关文章:

java - Hive Jdbc连接错误,出现NoClassDefFoundError

java - 如何解决 S3 错误 : org. jets3t.service.S3ServiceException : S3 GET failed? Java

python - PySpark 按值分解键并保留 LDA 模型的重复项

scala - 通过scala获取存储在azure data lake中的文件名列表

pyspark - 使用 Pyspark 将不同的行值转换为具有相应行的不同列

dataframe - 使用 pyspark 使用嵌套结构 ArrayType 展平数据框

pyspark 的 Python 圆函数问题

hadoop mapreduce - 用于获取作业日志的 API

apache-spark - Spark 结构化流式传输蓝/绿部署

hadoop - 如何在 HIVE 表中找到最近的分区