python - 如何使用 PySpark 计算 ADLS 中的目录大小？

标签 python apache-spark pyspark databricks azure-databricks

我想计算包含子文件夹和子文件的目录(例如- XYZ)大小。我想要 XYZ 中所有文件和所有内容的总大小。

我可以找出特定路径内的所有文件夹。但我想要所有的大小。我也看到了

显示(dbutils.fs.ls("/mnt/datalake/.../XYZ/.../abc.parquet"))

给我 abc 文件的数据大小。但我想要 XYZ 的完整大小。

最佳答案

dbutils.fs.ls 没有像 cp、mv 或 rm 这样的递归功能.因此，您需要自己进行迭代。这是一个片段，可以为您完成任务。从 Databricks Notebook 运行代码。

from dbutils import FileInfo
from typing import List

root_path = "/mnt/datalake/.../XYZ"

def discover_size(path: str, verbose: bool = True):
  def loop_path(paths: List[FileInfo], accum_size: float):
    if not paths:
      return accum_size
    else:
      head, tail = paths[0], paths[1:]
      if head.size > 0:
        if verbose:
          print(f"{head.path}: {head.size / 1e6} MB")
        accum_size += head.size / 1e6
        return loop_path(tail, accum_size)
      else:
        extended_tail = dbutils.fs.ls(head.path) + tail
        return loop_path(extended_tail, accum_size)

  return loop_path(dbutils.fs.ls(path), 0.0)

discover_size(root_path, verbose=True)  # Total size in megabytes at the end

如果该位置安装在 dbfs 中。然后您可以使用 du -h 方法(尚未测试)。如果您在笔记本中，请使用以下内容创建一个新单元格:

%sh
du -h /mnt/datalake/.../XYZ

关于python - 如何使用 PySpark 计算 ADLS 中的目录大小？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61312078/

上一篇：r - 使用 R 解析其中键和值是数值的类似字典的结构

下一篇：regex - 如何对未知(但重复)的词进行分组以创建索引？

python - PySpark:如何在 PySpark SQL 中创建计算列？

python - PriorityQueue 按对象属性排序

python - 如何更改 matplotlib 按钮中的文本大小？

python - Selenium 错误 : AttributeError: 'Service' object has no attribute 'process'

apache-spark - Spark select-explode 习惯用法是如何实现的？

python - 如何使用 Spark 创建稀疏 CSCMatrix？

python - 如何在 SWIG 界面中使用 C++ 宏

apache-spark - 可以使用 spark 配置来配置 Beam 可移植运行机吗？

python - 有没有办法计算 Spark df 中每行的非空值？