database - 在 Pig 中,查找表中条目的补集

标签 database apache-pig

我有一个表A,其中包含一个列表,一个表B,其中包含A中的项目的子列表。如何获得一个表C,其中包含一个列表,该列表是AB的补集?

我知道如何在sql中做到这一点。我不知道如何在 Pig 中处理它。

谢谢。

最佳答案

用PIG的话来说,你有两个“袋子”A和B,其中B是A的子集。

如果 B 只包含 A 中的值,则可以执行 C = DIFF(A,B)。 但是,考虑到 DIFF 会删除重复项,因此您将得到 A 中 B 的补码,减少为唯一值。

通常,DIFF 提供 A 中 B 的补集和 B 中 A 的补集的并集。

关于database - 在 Pig 中,查找表中条目的补集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12146948/

相关文章:

hadoop - 在一行中组合多个PIG命令

mysql - SQL 只是做与此相反的事情

apache-pig - 使用 Pig 处理平面文件

hadoop - 使用hadoop和Pig的Twitter数据的情感分析

hadoop - 想要在使用 pig 的记录中找到最大记录

java - 如何根据hadoop中的公共(public)键连接两个数据集?

javascript - Symfony 3.4 如何将 Javascript 数据传递给 Controller ​​?

java - MySQL 命令在列中选择值 - JDBC

php - 匹配数据库表中的任意一组字段

java - 在 QueryDSL 分组转换器中计数