apache-spark - 如何修复 pyspark EMR Notebook 上的错误 - AnalysisException : Unable to instantiate org. apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

标签 apache-spark hadoop pyspark amazon-emr hive-metastore

我正在尝试使用附加到 EMR 的 EMR 笔记本在公共(public)数据集上使用 spark.sql() 或 sqlContext.sql() 方法运行 SQL 查询(这里 spark 是我们启动 EMR Notebook 时可用的 SparkSession 对象的变量)安装了 Hadoop、Spark 和 Livy 的集群。
但是在运行任何基本的 SQL 查询时,我都会遇到错误:

AnalysisException: u'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;

我想使用 SQL 查询,所以我不想使用 Dataframe API 作为替代方案。

这个 spark EMR 集群没有安装单独的 Hive 组件,我不打算使用它。
我已尝试寻找导致此问题的各种原因,其中一个原因可能是 EMR 笔记本可能没有创建 metastore_db 的写入权限。但是,我无法证实这一点。
我试图在集群的日志文件中找到此错误,但找不到它,并且不确定哪个文件可能包含此错误,以便获取更多详细信息。

重现问题的步骤:
  • 使用控制台创建 AWS EMR 集群并使用快速启动 View ,选择 spark 选项。它将包括基于 Hadoop 2.8.5 YARN 的 Spark 2.4.3 以及 Ganglia 3.7.2 和 Zeppelin 0.8.1。它可以只有 1 个主节点和 2 个核心节点,甚至可以只有 1 个主节点。
  • 从 EMR 页面中的 Notebooks 链接创建一个 EMR Notebook,将其附加到您刚刚创建的集群并打开它(默认情况下,选择的内核将是 pyspark,如笔记本右上角所示)。
  • 我正在使用的代码在公开的亚马逊评论数据集上运行 spark.sql 查询。
  • 代码:
  • # Importing data from s3
    input_bucket = 's3://amazon-reviews-pds'
    input_path = '/parquet/product_category=Books/*.parquet'
    df = spark.read.parquet(input_bucket + input_path)
    # Register temporary view
    df.createOrReplaceTempView("reviews")
    sqlDF = sqlContext.sql("""SELECT product_id FROM reviews LIMIT 5""")
    

    我希望从这个数据集中返回 5 个 product_id 但是我得到了错误:
    u'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'
    Traceback (most recent call last):
      File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/context.py", line 358, in sql
        return self.sparkSession.sql(sqlQuery)
      File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/session.py", line 767, in sql
        return DataFrame(self._jsparkSession.sql(sqlQuery), self._wrapped)
      File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
        answer, self.gateway_client, self.target_id, self.name)
      File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
        raise AnalysisException(s.split(': ', 1)[1], stackTrace)
    AnalysisException: u'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'
    

    最佳答案

    我遇到了同样的问题,我意识到我的 EMR 集群上没有 Hive。

    在启动另一个集群并确保选择了 Hive 后,它就可以工作了。

    关于apache-spark - 如何修复 pyspark EMR Notebook 上的错误 - AnalysisException : Unable to instantiate org. apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57780222/

    相关文章:

    hadoop - 在集群上找到 yarn 日志

    scala - Apache Spark RDD 拆分 "|"

    apache-spark - 在 SPARK 中将多列组合成单列

    scala - Cassandra 全表转储到 HDFS

    java - Hadoop3 : worker node error connecting to ResourceManager

    hadoop虚拟机文件

    apache-spark - Apache Spark 2.3.1 与 HDP 3.0 中的 Hadoop 3.0 的兼容性

    python - 获取 TypeError ("StructType can not accept object %r in type %s"% (object, type(obj)))

    python - 等效于 Python 和 PySpark 中的 R data.table 滚动连接

    python - Datastax Spark Cassandra 连接器模块导入错误