我正在尝试从 pyspark 获取 Impala 表的计数。但我在 Spark 中得到了不正确的结果。
impala 表是一个分区表。它按年和月分区(EX: 201906)。我什至在更新表后执行使元数据无效、更改表恢复分区和刷新表的操作。但我仍然没有在 Spark 中得到正确的结果。
执行
select count(*) dbname.tablename where timestamp>='2019-06-01' and timestamp<='2019-06-15'
返回
10931
和
spark.sql("select count(*) dbname.tablename") where timestamp>='2019-06-01' and timestamp<='2019-06-15'
返回
0
最佳答案
表是 Parquet 并从 Impala 写入行? 如果是,答案是here .
Missing results in Hive, Spark, Pig, Custom MapReduce jobs, and other Java applications when filtering Parquet data written by Impala
关于python - Impala 查询在 Pyspark 中返回错误结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56932188/