apache-spark - 不支持 spark sql 上下文中的 WITH 子句

标签 apache-spark pyspark apache-spark-sql

我正在尝试使用 spark sql context 和以下查询从大型机表中获取记录

data_config.db2_qry= SELECT A.E_No,A.E_Name FROM Scheema.Employee A WITH UR

但是它抛出了下面的错误

com.ibm.db2.jcc.am.SqlSyntaxErrorException: DB2 SQL Error: SQLCODE=-199, SQLSTATE=42601, SQLERRMC=WITH;HAVING WHERE GROUP ORDER INTERSECT MINUS EXCEPT UNION ) , FETCH, DRIVER=4.19.26

但如果我直接在大型机控制台中运行相同的查询,它就可以正常工作。

如何在spark的sql上下文中使用WITH子句?

我使用的是 spark 2.4.0 版本

我正在检索如下记录

filt_cond = "(" + data_config.db2_qry + ") ref_id"

db2Df = sqlContext.read.format("jdbc").option("url", data_config.db2_url).option("driver", "com.ibm.db2.jcc.DB2Driver").option( "dbtable", filt_cond).option("user", data_config.db2_uname).option("password", data_config.db2_passwd).load()

最佳答案

问题出在发送到大型机 DB2 的查询中,用于推送“WITH UR”的 spark jdbc 方法选择需要更改。

这里使用的spark jdbc读取方法是

def jdbc(url: String, table: String, properties: Properties): DataFrame

在这个方法中,我们将以下查询推送到 db2 sql 引擎

"select a, b, c, d from table where d is not null with UR as table",这与在大型机 DB2 SQL 引擎中推送的查询不同。 spark 将 sql 发送为

select a, b, c from(select a, b, c from table where d is not null with UR)as table 这就是麻烦开始的地方。

如果您想在大型机 SPUFI 或 QMF 或其他工具中看到相同的 sql 错误,请尝试通过 spark 运行构造的查询,而不是我们在代码中编写的查询。

为了克服这个问题,将“WITH UR”语法添加到 SQL,而不是上面的 spark jdbc 方法切换到以下允许我们构造谓词的 spark jdbc 方法。

 def jdbc(url: String, table: String, predicates: Array[String],
 connectionProperties: Properties): DataFrame

将 sql 推送为 ""从表中选择 a、b、c、d 作为 tbl"

with predicates= Array("d is not null with UR")

在这种情况下,预期的查询被下推。希望这可以帮助您找到解决问题的方向。

在这里您可以看到有关 spark jdbc 读取方法的更多详细信息- Link

关于apache-spark - 不支持 spark sql 上下文中的 WITH 子句,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55193501/

相关文章:

scala - 如何传递 Scala UserDefinedFunction 其中输出是复杂类型(使用 StructType 和 StructField)以从 Pyspark 使用

java - 如何在 Spark 中打印 DataFrame 列的唯一值?

apache-spark - 如何将 PythonRDD(JSON 中的行)转换为 DataFrame?

python - 为什么 PySpark 中的 agg() 一次只能汇总一列?

apache-spark - 调用sc.textFile (“hdfs://…”)时,spark和hdfs之间将建立多少个bt连接

java - 无法运行星火

python - 如何复制 Parquet 文件并将其转换为 csv

hadoop - Spark History用户界面不起作用| Ambari |纱

scala - Kmeans - 分组依据

unit-testing - 使用 Delta Lake 表运行 Pytest 时出错