apache-spark - 如何将 Delta 文件格式转换为仅 Parquet 文件

标签 apache-spark databricks parquet azure-synapse delta-lake

Delta Lake 是默认存储格式。我了解如何将 parquet 转换为 Delta。

我的问题是有什么方法可以将其恢复为 Parquet 。有什么选择吗?

我需要的是我在写入时想要单个 Parquet 文件。不需要额外的日志文件!

最佳答案

如果您在 table 上运行真空并删除日志文件夹,您最终会得到常规 Parquet 文件。

关于apache-spark - 如何将 Delta 文件格式转换为仅 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74173070/

相关文章:

scala - Spark 独立: how to avoid sbt assembly and uber-jar?

azure - 如何使用Azure客户端下载parquet "file"(实际上是目录)?

apache-spark - 更新 apache parquet 文件中的值

python - PySpark:连接两个 Spark 数据帧时如何将列分组为列表?

scala - 更改Spark数据框中的列的可为空属性

apache-spark - Azure Databricks 多任务作业和工作流。模拟完成状态

azure - Databricks 文件触发器 - 如何将存储防火墙列入白名单

apache-spark - Spark sql 在 yarn 集群模式下抛出 java.lang.OutOfMemoryError 但在 yarn 客户端模式下工作

java - 如何使用 java 自定义比较器来订购 Spark RDD

apache-spark - 通过 bucketBy 优化 Spark DataFrame/Dataset groupBy