hadoop - Hive查询在连接下面编写时歪斜:

标签 hadoop hive

Select a.drr1,b.drr1 from a left join b on a.drr1=b.drr1

在此,表a具有重复的drr1值,而表b具有唯一的drr1值。 hive 中的多对一连接。

由于表a非常大且重复值很多,因此花费的时间太长。
关于如何在 hive 中解决此问题的任何指示。

最佳答案

做类似的事情

SELECT DISTINCT * FROM A LEFT JOIN B ON A.drr1=B.drr1;

关于hadoop - Hive查询在连接下面编写时歪斜:,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41435486/

相关文章:

hadoop - 在 Hive 中将字符串值转换为十进制时为 NULL

hadoop - HBase rowkey 包含时间戳

hadoop - 为什么默认的hdfs block 大小设置为134.2 mb(大约)

hive - 选择满足配置单元中条件的上一行

sql - Hive Query : Trying to string match using WHERE, LIKE on map<string, string>

arrays - 如何在 hive sql 中将数组转换为字符串?

mysql - 包含相关数据的非常大的表。什么样的 DBMS 是最佳的,以及如何对其建模?

hadoop - 将文件从hadoop群集(远程Windows机器)中上传到hdfs,就像色相上传一样

hadoop - 通过 hive 将数据插入 hbase 时,reducer 卡在 99%

scala - Spark 过滤数据框中的列以及集合中的单词