我们每天运行下面的查询,由于交易表中的数据量巨大,该查询运行了 3 小时左右。有什么方法可以调整此查询或减少执行时间?
CREATE TEMPORARY TABLE t1 AS
SELECT DISTINCT EVENT_DATE FROM (
SELECT DISTINCT EVENT_DATE FROM mstr_wrk.cust_transation
WHERE load_date BETWEEN CAST(CAST('2019-03-05 04:00:31.0' AS TIMESTAMP) AS DATE) AND CURRENT_DATE() AND event_title = 'SETUP'
AND state != 'INACTIVE' AND mode != 'DORMANT') T
我尝试减少 reducer 的数量以帮助加快速度,还尝试启用矢量化,但运气不佳。我们在 tez 上运行。
最佳答案
- 你不需要申请 DISTINCT 两次
- 如果表
mstr_wrk.cust_transation
按load_date
分区,分区修剪将不起作用,因为您正在使用函数。这将导致表全扫描。在 shell 脚本中计算日期并作为参数传递
在参数化你的脚本之前检查这个脚本的性能
CREATE TEMPORARY TABLE t1 AS
SELECT DISTINCT EVENT_DATE FROM mstr_wrk.cust_transation
WHERE load_date >= '2019-03-05' AND load_date <= '2019-03-07'
AND event_title = 'SETUP'
AND state != 'INACTIVE' AND mode != 'DORMANT'
关于hadoop - 减少 Hive 查询执行时间的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55045871/