hadoop - Hive查询在连接下面编写时歪斜:

Select a.drr1,b.drr1 from a left join b on a.drr1=b.drr1

在此，表a具有重复的drr1值，而表b具有唯一的drr1值。 hive 中的多对一连接。

由于表a非常大且重复值很多，因此花费的时间太长。
关于如何在 hive 中解决此问题的任何指示。

最佳答案

做类似的事情

SELECT DISTINCT * FROM A LEFT JOIN B ON A.drr1=B.drr1;

关于hadoop - Hive查询在连接下面编写时歪斜:，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41435486/

相关文章：

hadoop - 在 Hive 中将字符串值转换为十进制时为 NULL