hadoop - 有没有办法防止在 Hive 中插入重复行?

标签 hadoop hive orc

我有一个ORC 表。我使用其他表中的数据填充它,如下所示:

INSERT INTO TABLE orc_table_name SELECT * FROM other_table_name

有什么方法可以防止将重复的条目插入到 ORC 表中?

最佳答案

您可以在命令中使用 not 请参见下面的通用代码:它根据之前未插入 TABLE_1 中的 value1 的事实将记录插入到 orc_table_name。

INSERT INTO orc_table_name
  (Value1, Value2)
SELECT t1.Value1,
       t1.Value2
  FROM TABLE_1 t1
 WHERE t1.Value1 NOT IN (SELECT Value1 FROM orc_table_name)

关于hadoop - 有没有办法防止在 Hive 中插入重复行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44797769/

相关文章:

hadoop - 有人可以向我解释 orcfiledump 的输出吗?

hadoop - Hadoop dfs.replicate 如何工作?

hadoop - Hive 版本 0.13.1 中的性能问题

hadoop - JobConf 大小超出

hadoop - Hive 中的计算统计模式

hadoop - Hadoop/Hive升级性能

api - 微软计算机视觉API手写

hadoop - 是否会在 ORC 文件中读取所有嵌套列?

hadoop - 如何在Parquet中输出多个s3文件

hadoop - 使用非重叠查询并行插入配置单元表