我想在 databricks 脚本中读取数据湖中文件的上次修改日期时间。如果我在从数据湖读取数据时能够将其作为一列高效地读取,那就完美了。
谢谢:)
更新: 如果您使用 Databricks,自 2022 年 3 月 18 日发布 Databricks 运行时 10.4 以来,dbutils.fs.ls() 命令也会返回文件夹和文件的“modificationTime”:
最佳答案
关于该问题,请引用以下代码
URI = sc._gateway.jvm.java.net.URI
Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
conf = sc._jsc.hadoopConfiguration()
conf.set(
"fs.azure.account.key.<account-name>.dfs.core.windows.net",
"<account-access-key>")
fs = Path('abfss://<container-name>@<account-name>.dfs.core.windows.net/<file-path>/').getFileSystem(sc._jsc.hadoopConfiguration())
status=fs.listStatus(Path('abfss://<container-name>@<account-name>.dfs.core.windows.net/<file-path>/'))
for i in status:
print(i)
print(i.getModificationTime())
关于azure - 如何高效读取数据湖文件的元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68005693/