Select a.drr1,b.drr1 from a left join b on a.drr1=b.drr1
在此,表
a
具有重复的drr1
值,而表b
具有唯一的drr1
值。 hive 中的多对一连接。由于表a非常大且重复值很多,因此花费的时间太长。
关于如何在 hive 中解决此问题的任何指示。
最佳答案
做类似的事情
SELECT DISTINCT * FROM A LEFT JOIN B ON A.drr1=B.drr1;
关于hadoop - Hive查询在连接下面编写时歪斜:,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41435486/