Azure Data Lake Gen2 与存储帐户

标签 azure azure-storage azure-data-lake azure-databricks

我需要处理一些大数据并计划部署Databricks集群和存储技术。目前正在评估支持对象和文件存储的 Data Lake Gen2。存储帐户(blob、文件、表、队列)也具有类似的功能,可以处理基于文件和基于对象的存储需求。由于这些相似之处,我对选择一个选项感到有点困惑。有人可以澄清以下问题吗?

  1. 除了 HDFS 支持之外,我还应该针对存储帐户使用 Data Lake Gen2 的重要功能是什么?
  2. 启用了分层命名空间的存储帐户 v2 == Data Lake Gen2。如果是这样,我可以使用文件系统创建文件共享并将其安装在我的虚拟机中,就像 Storage acc 的文件系统一样吗?
  3. 对于从 Databricks 访问数据,这两者中哪一个更适合大数据工作负载。我可以看到存储帐户也可以安装为 DBFS,它仍然可以利用分布式处理。

最佳答案

Except HDFS support, what else is a significant feature that I should use Data Lake Gen2 against Storage Account?

答:还有其他好处。简而言之,好处是性能/管理/安全性以及成本。更多详情,您可以引用this official article .

Storage Account v2 with Hierarchical namespace enabled == Data Lake Gen2. If so, can I use File System to create file shares and mount them in my VM as like Storage acc's File system?

答案:当然,ADLS Gen2 与 Blob 存储一样支持文件共享挂载。

For accessing data from Databricks, which one of these two will be better for big data workloads. I can see Storage account can also be mounted as DBFS which can still leverage the distributed processing.

答案:ADLS Gen2 也可以是 mounted as DBFS 。根据答案 1,更好的应该是 ADLS Gen2。

关于Azure Data Lake Gen2 与存储帐户,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62176507/

相关文章:

Azure Powershell 命令无法在 Azure Blob 存储中存储 bacpac 文件

c# - Azure - 将 .NET Web 应用程序与 azure sql 数据库连接

使用 Powershell 的 Azure Data Lake 子文件夹权限

azure - 如何使用 Azure Blob 存储连接到 Azure Data Lake Analysis

带有 VNET 链接的 Azure 私有(private) DNS 无法解析

Azure 云 Web 服务、存储选项

c# - CloudBlobContainer.ListBlobs() 中如何使用前缀参数从 Azure Blob 存储中的虚拟文件夹获取文件

web.config 中的 Azure DNS 主机名或 IP 引用?

azure - worker 角色第三方软件

azure - 如何使用azure数据工厂复制特定目录中的所有文件和文件夹