我在PySpark中有一个数据框(使用Databricks),我想将此数据框写入SQL DB(以我的情况为Azure SQL数据库)。除看起来这会触发对SQL DB的逐行插入(这对于10M +行而言当然不可行)外,此方法工作正常。
有什么方法可以强制PySpark改为使用批量插入?
目前,我只是使用以下命令:df.write.jdbc(url=jdbcUrl, table=targetTable, mode="append", properties=connectionProperties)
在SQL端执行的代码如下所示:(@P0 int,@P1 bit,@P2 bit,@P3 float,@P4 float,@P5 nvarchar(4000),@P6 int,@P7 int,@P8 int)INSERT INTO dbo.MyTable("Index","Sampling10pct","Sampling1pct","Latitude","Longitude","SessionID","Year","Month","Day") VALUES (@P0,@P1,@P2,@P3,@P4,@P5,@P6,@P7,@P8)
最佳答案
正如user8371915所说,Microsoft提供了一个SQL连接器,它提供了批量插入数据的功能:
github.com/Azure/azure-sqldb-spark
关于apache-spark - 将PySpark Dataframe批量写入SQL DB,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51951989/