delta-lake - 使用 delta 表的 VACUUM 会发生什么?

标签 delta-lake

当我们运行 VACUUM 命令时,它是遍历每个 parquet 文件并删除每条记录的旧版本,还是保留所有 parquet 文件,即使它有一个最新版本的记录?压实呢?这有什么不同吗?

最佳答案

Vacuum 和 Compaction 遍历 Delta Lake Table 中的 _delta_log/ 文件夹并识别仍在引用的文件。

Vacuum 删除所有未引用的文件。 压缩读取引用的文件并将新分区写回表,取消引用现有文件。

关于delta-lake - 使用 delta 表的 VACUUM 会发生什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72993612/

相关文章:

apache-spark - 如果在写入增量表之后立即执行 z 排序,那么在写入增量表之前重新分区是否毫无意义?

apache-spark - Spark 流与静态数据 block 增量表的连接有多可靠

scala - 无法使用Spark获取Delta Lake表的元数据信息

azure - Delta Lake RESTORE 问题 (Databricks)

apache-spark - 在没有互联网访问的服务器上安装 Delta Lake 库

delta-lake - 如何更新 Delta 中分区列的值?

azure - 如何将记录追加到foreachBatch中的增量表?