我需要通过从具有模式项、值的表中匹配的值来获取项对。我可以通过自连接来实现它,但我得到了如下所示的重复值
Item Value
---------------
item1 value1
item2 value1
item3 value3
item4 value2
当我使用 distinct 进行 self 连接时,我得到的值如下
Item1 Item2 Value
------------------------
item1 item2 value1
item2 item1 value1
但对我来说,上面的行是重复的,只需要其中一个。我怎样才能做到这一点?感谢您的关注和帮助。
注意:
由于我在此要求中对重复项有自己的定义,因此我在问题中将其称为 custom-duplicates
。如果他们被称为不同的名字,请务必提出建议。
最佳答案
解决方法很简单。
在 where 子句中添加:Item1>Item2
关于hadoop - 如何在配置单元中编写自连接查询以避免自定义重复,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19771285/