hadoop - 如何在配置单元中编写自连接查询以避免自定义重复

标签 hadoop hive hiveql

我需要通过从具有模式项、值的表中匹配的值来获取项对。我可以通过自连接来实现它,但我得到了如下所示的重复值

Item     Value
---------------
item1    value1
item2    value1
item3    value3
item4    value2

当我使用 distinct 进行 self 连接时,我得到的值如下

Item1    Item2    Value
------------------------
item1    item2    value1
item2    item1    value1

但对我来说,上面的行是重复的,只需要其中一个。我怎样才能做到这一点?感谢您的关注和帮助。

注意: 由于我在此要求中对重复项有自己的定义,因此我在问题中将其称为 custom-duplicates。如果他们被称为不同的名字,请务必提出建议。

最佳答案

解决方法很简单。
在 where 子句中添加:Item1>Item2

关于hadoop - 如何在配置单元中编写自连接查询以避免自定义重复,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19771285/

相关文章:

hadoop - 配置单元执行失败错误从 org.apache.hadoop.hive.ql.exec.mapredtask 返回代码 2

hadoop - 在 Hive 中删除具有相同前缀的多个表

hadoop - HiveQL 查询没有返回结果,也没有错误

hadoop - Hadoop MapReduce未运行0%Map and Reduce

hadoop - 安装 ambari 后 Hive 显示问题

python - 如何在 Airflow 上重新启动失败的任务

hadoop - 无法通过蜂线连接配置单元jdbc

apache - 我可以仅将源文件中的特定数据加载到HIVE表中吗?

windows-7 - 数据节点和名称节点服务未启动

hadoop - 我们可以检查 Hive 表的大小吗?如果是这样,怎么做?