azure - 我如何使用 pyspark 显示配置单元表

标签 azure apache-spark pyspark hive azure-hdinsight

您好,我在 azure 上创建了一个 Spark HD Insight 集群,我正在尝试使用 pyspark 读取 Hive 表,但问题是它仅向我显示默认数据库

有人有想法吗?

最佳答案

如果您使用 HDInsight 4.0,Spark 和 Hive 不再共享元数据。

默认情况下,您不会看到来自 pyspark 的配置单元表,这是我在这篇文章中分享的一个问题:How save/update table in hive, to be readbale on spark .

但是,无论如何,你可以尝试的事情:

  1. 如果您只想在头节点上进行测试,可以更改 hive-site.xml,在属性“metastore.catalog.default”上,将值更改为hive,之后从命令行打开 pyspark。
  2. 如果要应用到所有集群节点,需要在 Ambari 上进行更改。
    • 以管理员身份登录 ambari
    • 转到 Spark2 > 配置 > hive-site-override
    • 再次将属性“metastore.catalog.default”更新为hive
    • 重新启动 Ambari 面板上所需的所有内容

这些更改将 hive 元存储目录定义为默认值。 您现在可以看到 Hive 数据库和表,但根据表结构,您将无法正确看到表数据。

关于azure - 我如何使用 pyspark 显示配置单元表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71230121/

相关文章:

apache-spark - 错误 : User did not initialize spark context

python - Json 文件到 pyspark 数据帧

azure - 如何从管道A检查管道B的状态

azure - 如何在 Bicep 中显示 Azure Runbook 脚本的路径?

azure - 在 Azure 上部署多个 databricks 工作区时如何配置 Terraform Databricks 提供程序

apache-spark - 为什么重用 SparkContext 可以大大加快查询速度

azure - Microsoft Cosmos DB(DocumentDB API)与 Cosmos DB(表 API)

scala - 使用 Spark MLib 与 PredictionIO 进行 Play 框架比较

python - 带有 case 语句的 for 循环

apache-spark - 如何打印用于预测 PySpark 中特定行样本的决策路径/规则?