azure - 何时应在 Azure Synapse Analytics 中使用装载点？

标签 azure pyspark azure-data-lake azure-synapse azure-data-lake-gen2

Azure Synapse Analytics 的文档提到了使用 Synapse Analytics 中的 Apache Spark 池将数据读/写到 Azure Data Lake Storage Gen2 的两种方法。

使用 ADLS 存储路径直接读取文件

adls_path = "abfss://<containername>@<accountname>.dfs.core.windows.net/<filepath>"

df = spark.read.format("csv").load(adls_path)

使用 mssparkutils 创建挂载点并使用 synfs 路径读取文件

mssparkutils.fs.mount( 
    "abfss://<containername>@<accountname>.dfs.core.windows.net", 
    "/data", 
    {"linkedService":"<accountname>"} 
) 

synfs_path = "synfs:/<jobid>/data/<filepath>"

df = spark.read.format("csv").load(synfs_path)

这两种方法有什么区别？您什么时候更愿意使用挂载点？

最佳答案

挂载点就像创建虚拟文件夹并将位置映射到 Azure 存储

从挂载点访问存储的优点:

从 Datalake 访问特定文件时的代码不太复杂，无需在每次访问时指定完整的存储路径
您可以像访问本地存储中的文件一样访问文件
您可以将数据组织为集中位置的文件夹

缺点:

当您需要从 Azure 存储访问多个目录时效率不高，映射多个目录会造成困惑并造成困惑

关于azure - 何时应在 Azure Synapse Analytics 中使用装载点？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/75553649/

上一篇：azure - 在 python init 脚本中为 databricks 集群设置 Sparkconf

下一篇：azure - Kusto 查询对标签名称(键)而不是值进行不区分大小写的过滤

python - 如何在 PySpark 中使用 UnaryTransformer？

apache-spark - Parquet 如何处理 SparseVector 列？

azure - 我们不能使用USQL自定义代码和usql上传文档/图像吗？

azure - Windows Azure AppFabric 访问控制服务 (ACS) 中的 OAuth 2.0 身份提供程序

c# - Azure AD 检查身份验证 token 是否有效

azure - 如何从外部 Azure AD 租户注册应用程序？

python - pyspark:使用模式加入？或者将模式转换为列表？

azure - Hadoop 客户端 Azure Data Lake Gen2 token 访问 - AADToken : HTTP connection failed for getting token from AzureAD. Http 响应:400 错误请求

Azure Databricks 到事件中心