apache-spark - PySpark无法通过sparkContext/hiveContext读取Hive ORC事务表？我们可以使用Pyspark更新/删除配置单元表数据吗？

标签 apache-spark hadoop hive pyspark pyspark-sql

我尝试使用PySpark访问Hive ORC事务表(在HDFS上具有基础增量文件)，但无法通过sparkContext / hiveContext读取事务表。

/ mydim / delta_0117202_0117202

/ mydim / delta_0117203_0117203

最佳答案

Officially Spark not yet supported for Hive-ACID table, get a full dump/incremental dump of acid table to regular hive orc/parquet partitioned table then read the data using spark.

有一个开放的Jira saprk-15348，添加了对读取 Hive ACID 表的支持。

如果在酸性表(来自配置单元)上运行 major compaction ，则spark仅能够读取 base_XXX 目录，而不能读取此jira中寻址的delta目录Spark-16996。

本链接中提到了一些使用SPARK-LLAP读取酸表的解决方法。

我认为从开始HDP-3.X HiveWareHouseConnector能够支持读取HiveAcid表。

关于apache-spark - PySpark无法通过sparkContext/hiveContext读取Hive ORC事务表？我们可以使用Pyspark更新/删除配置单元表数据吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57311848/

上一篇：VM 重启后 Docker 容器重启

下一篇：docker - 问题是我无法从python应用程序连接到scylla节点。我是否需要更改任何scylla.yaml属性？

apache-spark - 在 YARN-Cluster 模式下运行时找不到 Hive 表

java - Spark 内存分数与年轻一代/老一代 java 堆拆分

scala - Spark Streaming窗口操作

Hadoop Hortonworks 服务器宕机

hadoop - 输入拆分将如何存储在hadoop集群上

hadoop - 在 hadoop 多节点集群上启动 HDFS 守护程序时出错

hadoop - 如何创建一个 HIVE 表来读取分号分隔的值

shell 脚本 "syntax error: ` 意外完成。”

hadoop - 如何将配置单元分区读入 Apache Crunch 管道？