linux - Pyspark 按目录中的 filtetypes 列出文件

标签 linux apache-spark pyspark databricks

我想在目录中按文件类型列出文件。该目录有 .csv、.pdf 等文件类型,我想列出所有 .csv 文件。

我正在使用以下命令

dbutils.fs.ls("/mnt/test-output/*.csv")

我希望获得该目录中所有 csv 文件的列表。

我在数据 block 中收到以下错误

java.io.FileNotFoundException: No such file or directory: /test-output/*.csv

最佳答案

尝试使用带有 %sh 的 shell 单元格。您也可以从那里访问 DBFS 和 mnt 目录。

%sh
ls /dbfs/mnt/*.csv

应该给你这样的结果

/dbfs/mnt/temp.csv

%fsdbutils 的快捷方式及其对文件系统的访问。 dbutils 不支持所有 unix shell 函数和语法,所以这可能是您遇到的问题。另请注意,在运行 %sh 单元时,我们如何使用 /dbfs/ 访问 DBFS。

关于linux - Pyspark 按目录中的 filtetypes 列出文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57615150/

相关文章:

linux - 在变量中放置一个值并使其保留

python - 在python中获取友好的设备名称

python - Spark 数据框添加带有随机数据的新列

python - 如何将动态命名的列连接到字典中?

linux - getaddrinfo() 是系统调用吗?

apache-spark - 在apache Spark sql中编写SELECT TOP 1 1

apache-spark - spark决策树使用什么算法(是ID3、C4.5还是CART)

python-3.x - PySpark - 根据条件填充特定行

python - 将 spark 数据框列传递给 geohash 函数 - pyspark。无法将列转换为 bool :

linux - 使用 libevent2 处理文件 I/O 时出现问题