apache-spark - 如何在 Google Dataproc 主节点上启用 pyspark HIVE 支持

标签 apache-spark hive pyspark google-cloud-dataproc

我创建了一个 dataproc 集群并手动安装 conda 和 Jupyter notebook。然后,我通过 conda 安装 pyspark。我可以成功运行 Spark

from pyspark import SparkSession
sc = SparkContext(appName="EstimatePi")

但是,我无法启用 HIVE 支持。下面的代码被卡住并且不返回任何内容。
from pyspark.sql import SparkSession
spark = (SparkSession.builder
         .config('spark.driver.memory', '2G')
         .config("spark.kryoserializer.buffer.max", "2000m")
         .enableHiveSupport()
         .getOrCreate())

Python 2.7.13 版,Spark 2.3.4 版

有什么方法可以启用 HIVE 支持?

最佳答案

Cloud Dataproc 现在可以选择在 dataproc 集群中安装可选组件,并且还可以通过网关轻松访问它们。您可以在此处找到安装 Jupyter 和 Conda 的详细信息 - https://cloud.google.com/dataproc/docs/tutorials/jupyter-notebook

组件网关的详细信息可以在这里找到 - https://cloud.google.com/dataproc/docs/concepts/accessing/dataproc-gateways .请注意,这是阿尔法。

关于apache-spark - 如何在 Google Dataproc 主节点上启用 pyspark HIVE 支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59671000/

相关文章:

apache-spark - pyspark 计数列中的非空值

python - 使用 python 的最常见的 2-grams

apache-spark - 使用 Apache Spark ML,您如何转换(用于预测)没有标签的数据集?

hadoop - apache pig rank 运算符不适用于多个 reducer

oracle - 将 BLOB(图像)从 oracle 导入到 hive

python - 如何检查我的一列值是否存在于另一列中

web-services - 将 spark 数据加载到 Mongo/Memcached 以供 Web 服务使用

scala - 如何使用 Scala 在 Spark 2.1 中将带有毫秒的字符串列转换为带有毫秒的时间戳?

java - 如何在 Cloudera 中安排/触发 Spark 作业?

Hadoop 集群和客户端连接