hive -e "select e.school_id, e.school_name, e.school_location from
(select r.college_id, r.college_name
from
College r
where
college_id = '6789') tab1
full outer join
(select e.school_id, e.school_name, e.school_location
from university
lateral view explode(school) encTable as e
where
school_id = '12345') tab2
on tab1.school_id=tab2.college_id
limit 4 " > result456.csv
我目前正在运行一个配置单元查询,其中我要加入collecge_id与school_id匹配的2个表的大学和学院
大学,因为我在大学和学院都有更多数据,所以这需要花费更多时间来执行
是否需要任何更新来提高此查询的性能
在这里,它先收集来自College再到School的所有数据,然后再比较 tab1.school_id = tab2.college_id
我感觉表现很差
还有什么其他方法可以提高性能来获取相同的数据
最佳答案
hive 查询的群集处理响应缓慢可能有多种原因。
您可能需要考虑的一些优化因素如下:
请引用链接以获取有关联接优化的更多信息-https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinOptimization
没有硬性规定可以为所有群集获得优化的配置。您可能需要尝试并测试其他选项才能达到最佳水平。
关于mysql - 通过连接提高Hive查询的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44880210/