我们有许多 Hive 查询,需要花费大量时间。我们正在使用 tez 和其他良好实践,例如 CBO、使用 orc 文件等。
有没有办法像某些命令一样检查/分析数据偏差?解释计划是否有帮助?如果有,我应该寻找哪个参数?
最佳答案
解释计划对此没有帮助,您应该检查数据。如果是联接,则从参与联接的所有表中选择前 100 个联接键值,如果是分析函数,则对按键分区执行相同操作,您将看到是否存在倾斜。
示例:
select key, count(*) cnt
from table
group by key
having count(*)> 1000 --check also >1 for tables where it should not be duplication (like dimentions)
order by cnt desc limit 100;
key
可以是复杂的连接键(在连接 ON 条件下使用的所有列)。
关于sql - 有没有办法识别或检测 Hive 表中的数据倾斜?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53332761/