apache-spark - PySpark无法通过sparkContext/hiveContext读取Hive ORC事务表?我们可以使用Pyspark更新/删除配置单元表数据吗?

标签 apache-spark hadoop hive pyspark pyspark-sql

我尝试使用PySpark访问Hive ORC事务表(在HDFS上具有基础增量文件),但无法通过sparkContext / hiveContext读取事务表。

/ mydim / delta_0117202_0117202

/ mydim / delta_0117203_0117203

最佳答案

Officially Spark not yet supported for Hive-ACID table, get a full dump/incremental dump of acid table to regular hive orc/parquet partitioned table then read the data using spark.



有一个开放的Jira saprk-15348,添加了对读取 Hive ACID 表的支持。
  • 如果在酸性表(来自配置单元)上运行 major compaction ,则spark仅能够读取 base_XXX 目录,而不能读取此jira中寻址的delta目录Spark-16996
  • 本链接中提到了一些使用SPARK-LLAP读取酸表的解决方法。
  • 我认为开始HDP-3.X HiveWareHouseConnector能够支持读取HiveAcid表。
  • 关于apache-spark - PySpark无法通过sparkContext/hiveContext读取Hive ORC事务表?我们可以使用Pyspark更新/删除配置单元表数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57311848/

    相关文章:

    amazon-web-services - 在 Windows 8.1 上启动集群时无法识别 Spark-EC2

    apache-spark - 在 YARN-Cluster 模式下运行时找不到 Hive 表

    java - Spark 内存分数与年轻一代/老一代 java 堆拆分

    scala - Spark Streaming窗口操作

    Hadoop Hortonworks 服务器宕机

    hadoop - 输入拆分将如何存储在hadoop集群上

    hadoop - 在 hadoop 多节点集群上启动 HDFS 守护程序时出错

    hadoop - 如何创建一个 HIVE 表来读取分号分隔的值

    shell 脚本 "syntax error: ` 意外完成。”

    hadoop - 如何将配置单元分区读入 Apache Crunch 管道?