我尝试使用PySpark访问Hive ORC事务表(在HDFS上具有基础增量文件),但无法通过sparkContext / hiveContext读取事务表。
/ mydim / delta_0117202_0117202
/ mydim / delta_0117203_0117203
最佳答案
Officially
Spark
not yet supported for Hive-ACID table, get afull dump/incremental dump of acid table
to regularhive orc/parquet
partitioned table then read the data using spark.
有一个开放的Jira saprk-15348,添加了对读取
Hive ACID
表的支持。major compaction
,则spark仅能够读取 base_XXX
目录,而不能读取此jira中寻址的delta目录Spark-16996。 HDP-3.X
HiveWareHouseConnector能够支持读取HiveAcid表。 关于apache-spark - PySpark无法通过sparkContext/hiveContext读取Hive ORC事务表?我们可以使用Pyspark更新/删除配置单元表数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57311848/