如题。我知道 textFile
但正如其名称所示,它仅适用于文本文件。
我需要访问 HDFS 或本地路径上路径内的文件/目录。我正在使用 pyspark。
最佳答案
使用 JVM 网关可能不是那么优雅,但在某些情况下,下面的代码可能会有所帮助:
URI = sc._gateway.jvm.java.net.URI
Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration
fs = FileSystem.get(URI("hdfs://somehost:8020"), Configuration())
status = fs.listStatus(Path('/some_dir/yet_another_one_dir/'))
for fileStatus in status:
print(fileStatus.getPath())
关于hadoop - Pyspark:获取 HDFS 路径上的文件/目录列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35750614/