我有一个表A
,其中包含一个列表,一个表B
,其中包含A
中的项目的子列表。如何获得一个表C
,其中包含一个列表,该列表是A
中B
的补集?
我知道如何在sql中做到这一点。我不知道如何在 Pig 中处理它。
谢谢。
最佳答案
用PIG的话来说,你有两个“袋子”A和B,其中B是A的子集。
如果 B 只包含 A 中的值,则可以执行 C = DIFF(A,B)。 但是,考虑到 DIFF 会删除重复项,因此您将得到 A 中 B 的补码,减少为唯一值。
通常,DIFF 提供 A 中 B 的补集和 B 中 A 的补集的并集。
关于database - 在 Pig 中,查找表中条目的补集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12146948/