pyspark - 实例化时出错 'org.apache.spark.sql.hive.HiveExternalCatalog'

标签 pyspark hive

我无法从 Pyspark 运行 Hive 查询。

我尝试将 hive-site.xml 复制到 spark 的 conf 中,但尽管如此,它还是抛出了同样的错误

完全错误

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/spark-2.4.0/python/pyspark/sql/context.py", line 358, in sql
    return self.sparkSession.sql(sqlQuery)
  File "/usr/local/spark-2.4.0/python/pyspark/sql/session.py", line 767, in sql
    return DataFrame(self._jsparkSession.sql(sqlQuery), self._wrapped)
  File "/usr/local/spark-2.4.0/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
  File "/usr/local/spark-2.4.0/python/pyspark/sql/utils.py", line 79, in deco
    raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace)
pyspark.sql.utils.IllegalArgumentException: u"Error while instantiating 'org.apache.spark.sql.hive.HiveExternalCatalog':"

最佳答案

在我对 oozie 的测试中,我必须添加 Spark 需要的与 Hive 相关的 jar。尝试在 spark 的 conf 中添加相同的内容

关于pyspark - 实例化时出错 'org.apache.spark.sql.hive.HiveExternalCatalog',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61076037/

相关文章:

hadoop - 配置单元查询-导出到我的计算机

pyspark - 如何使用 AWS Glue 运行任意/DDL SQL 语句或存储过程

apache-spark - 使用 Pyspark 与 Hbase 交互的最佳方式是什么

python - 如何将 Pandas 数据框导出到文件,以便可以使用 Pandas 和 pyspark 打开它?

hadoop - 是否需要有关 hive 中的交叉连接的建议以从具有1.6亿行的大表中获取通配符单词?

hadoop - Hive 查询生成管理不善的登台目录

hadoop - pig 和 hive 的区别?为什么两者都有?

apache-spark - 如何在 PySpark 中覆盖 Spark ML 模型?

python - 根据 python 数据框中的条件重命名列

hadoop - 将参数传递给配置单元查询