azure - 何时应在 Azure Synapse Analytics 中使用装载点?

标签 azure pyspark azure-data-lake azure-synapse azure-data-lake-gen2

Azure Synapse Analytics 的文档提到了使用 Synapse Analytics 中的 Apache Spark 池将数据读/写到 Azure Data Lake Storage Gen2 的两种方法。

  1. 使用 ADLS 存储路径直接读取文件
adls_path = "abfss://<containername>@<accountname>.dfs.core.windows.net/<filepath>"

df = spark.read.format("csv").load(adls_path)

  • 使用 mssparkutils 创建挂载点并使用 synfs 路径读取文件
  • mssparkutils.fs.mount( 
        "abfss://<containername>@<accountname>.dfs.core.windows.net", 
        "/data", 
        {"linkedService":"<accountname>"} 
    ) 
    
    synfs_path = "synfs:/<jobid>/data/<filepath>"
    
    df = spark.read.format("csv").load(synfs_path) 
    
    

    这两种方法有什么区别?您什么时候更愿意使用挂载点?

    最佳答案

    挂载点就像创建虚拟文件夹并将位置映射到 Azure 存储

    从挂载点访问存储的优点:

    1. 从 Datalake 访问特定文件时的代码不太复杂,无需在每次访问时指定完整的存储路径
    2. 您可以像访问本地存储中的文件一样访问文件
    3. 您可以将数据组织为集中位置的文件夹

    缺点:

    1. 当您需要从 Azure 存储访问多个目录时效率不高,映射多个目录会造成困惑并造成困惑

    关于azure - 何时应在 Azure Synapse Analytics 中使用装载点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75553649/

    相关文章:

    azure - 当azure网站使用oauth(google+登录)和https时,从外部设备访问azure模拟器express

    python - 如何在 PySpark 中使用 UnaryTransformer?

    apache-spark - Parquet 如何处理 SparseVector 列?

    azure - 我们不能使用USQL自定义代码和usql上传文档/图像吗?

    azure - Windows Azure AppFabric 访问控制服务 (ACS) 中的 OAuth 2.0 身份提供程序

    c# - Azure AD 检查身份验证 token 是否有效

    azure - 如何从外部 Azure AD 租户注册应用程序?

    python - pyspark:使用模式加入?或者将模式转换为列表?

    azure - Hadoop 客户端 Azure Data Lake Gen2 token 访问 - AADToken : HTTP connection failed for getting token from AzureAD. Http 响应:400 错误请求

    Azure Databricks 到事件中心