python - Impala 查询在 Pyspark 中返回错误结果

标签 python apache-spark hive pyspark apache-spark-sql

我正在尝试从 pyspark 获取 Impala 表的计数。但我在 Spark 中得到了不正确的结果。

impala 表是一个分区表。它按年和月分区(EX: 201906)。我什至在更新表后执行使元数据无效、更改表恢复分区和刷新表的操作。但我仍然没有在 Spark 中得到正确的结果。

执行

select count(*) dbname.tablename where timestamp>='2019-06-01' and timestamp<='2019-06-15' 

返回

10931

spark.sql("select count(*) dbname.tablename") where timestamp>='2019-06-01' and timestamp<='2019-06-15'

返回

0

最佳答案

表是 Parquet 并从 Impala 写入行? 如果是,答案是here .

Missing results in Hive, Spark, Pig, Custom MapReduce jobs, and other Java applications when filtering Parquet data written by Impala

关于python - Impala 查询在 Pyspark 中返回错误结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56932188/

相关文章:

python - PyGame 让 Linux 陷入困境?

python - 来自 cv2 的奇怪直方图结果

scala - Spark File Streaming 获取文件名

hadoop - 在配置单元中执行某些 hql 时发生 AvroRuntimeException

azure - 为什么 Oozie 会抛出 "access denied org.apache.derby.security.SystemPermission( "engine", "usederbyinternals")"?

SQL Hive - 用 0 替换空值 (Hadoop Hive)

python - Django 网页中来自相机的 Opencv Live Stream

python - 为什么字典不像 urllib post 中的字符串?

scala - 如何自动创建 StructType 以将 RDD 传递给 DataFrame

apache-spark - 如何在 YARN 中的 Cloudera 5 上设置动态分配?