apache-spark - 使用 Spark 读取 Azure Synapse 表

标签 apache-spark azure-synapse

我正在寻找如何从 Scala Spark 读取 Azure Synapse 表,但没有成功。我在 https://learn.microsoft.com 中找到其他带有 Spark 的 Azure 数据库的连接器,但新的 Azure 数据仓库没有任何连接器。

有人知道这是否可行吗?

最佳答案

现在可以直接通过简单的工作(甚至在 UI 中为此添加了右键单击选项)从 Azure Synapse 中的专用 SQL 池中读取数据(用于 Scala 的新 Analytics 工作区,而不仅仅是 DWH)(不幸的是,目前只有 Scala)。

在 Synapse 工作区中(当然也有一个写入 API):

val df = spark.read.sqlanalytics("<DBName>.<Schema>.<TableName>")

如果在集成笔记本体验之外,需要添加导入:

 import com.microsoft.spark.sqlanalytics.utils.Constants
 import org.apache.spark.sql.SqlAnalyticsConnector._

听起来他们正在努力扩展到 SERVERLESS SQL 池以及其他 SDK(例如 Python)。

阅读本文的顶部部分作为引用:https://learn.microsoft.com/en-us/learn/modules/integrate-sql-apache-spark-pools-azure-synapse-analytics/5-transfer-data-between-sql-spark-pool

关于apache-spark - 使用 Spark 读取 Azure Synapse 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60811094/

相关文章:

azure - 写入数据帧后,Spark避免hadoop fs.rename失败

apache-spark - 根据另一列的元素从pyspark数组中删除元素

azure - 查找与 Azure Synapse 数据仓库中的存储过程相关的所有表

azure - 在从模板部署的突触管道中分配sparkpoolname时出现问题

Azure ML 数据集版本控制 : What is Different if it Points to the Same Data?

scala - 如何将 double 组的数据帧转换为向量?

apache-spark - Spark OutOfMemoryError

python - 从 RDD 创建 DataFrame 时出错

sql-server - Informatica 支持 Microsoft Azure SQL 数据仓库

python - 如何使用 Azure Synapse 和 pySpark 笔记本从 ADLS gen2 检索 .dcm 图像文件?