apache-spark - Delta Lake 中的外部表与内部表

标签 apache-spark apache-spark-sql azure-data-lake delta-lake data-lakehouse

与外部表相比,Delta Lake 中的内部表是否有任何性能优势,因为这两种情况下源文件都驻留在 Data Lake 中?

最佳答案

托管表与非托管表之间应该没有太大区别。它们的区别仅在于路径(默认存储位置与显式指定)以及删除表时发生的情况(同时删除数据与仅删除表定义)。

2023 年 10 月更新:当您使用 Unity Catalog 时,情况可能会有所不同 - 现在,托管表可以具有更多功能,例如自动维护等。但它最终也应该出现在外部表中。

关于apache-spark - Delta Lake 中的外部表与内部表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73688958/

相关文章:

apache-spark - Spark 代码组织和最佳实践

mysql - sql中select distinct id和select distinct *的区别

apache-spark - Spark 结构化流中的多重聚合

Java、Spark 和 Cassandra java.lang.ClassCastException : com. datastax.driver.core.DefaultResultSetFuture 无法转换到阴影

apache-spark - 如何使用ojdbc14.jar在spark-sql-2.4.1v中将日期/时间戳作为lowerBound/upperBound传递?

azure - 如何在 USQL 中定义多个输入文件模式?

azure - 尝试将数据加载到 Data Lake Storage Gen1 时出现 NameOrService 未知错误

python - 在 azure ML studio 中安装数据湖存储

java - eclipse 上的 Apache Spark

apache-spark - Zeppelin 和 SqlContext