我正在开始我的增量表之旅,但仍然让我困惑的一件事是,如果您稍后需要查询增量表,那么保存增量表的最佳位置在哪里。
例如,我正在将多个表从本地迁移到 azure databricks 到单独的增量表中。我的问题是,我应该将大小可能很大的各个增量表保存到 DBFS databricks 内部存储中,还是应该安装 Blob 存储位置并将 Delta Lake 表保存在那里?在这些情况下人们通常会做什么?
最佳答案
我通常建议人们将数据存储在单独的存储帐户中(安装或直接使用),并且不要使用工作区的内部存储来执行该任务。主要原因 - 如果需要,可以更轻松地与其他工作区或其他系统共享此数据。内部存储应主要用于临时文件、库、初始化脚本等。
有许多有用的指南可以提供帮助:
关于Databricks Delta 表 - 它们通常存储在哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66308635/