我有 3 列,一个 id 列和 2 个名称列。有时 2 个名称列的值相同,但其中一个在一列中为大写,而在另一列中为小写。如何删除值相同(或具有相似字符)但大小写不同的值?
例如:
a = 加载 txt 文件 a = foreach a 生成id, name1, name2
当前输出:
id1, james, JAMES
id2, tom, Tom
id3, Jim, Bob
id4, Bill, billy
预期输出:下面只有这 1 个结果
a = 比较 name1 和 name2,如果 name1 中有任何相似的字符也在 name 2 中,则将其过滤掉
id3,吉姆,鲍勃
感谢您的帮助!
最佳答案
假设您已经将数据加载到关系 A 中并且名称是 chararray 类型。
A = FILTER A BY (LOWER(A.$1) != LOWER(A.$2))
DUMP A;
关于hadoop - 如何比较 PIG 中的两列并删除任何相同的值,无论大写/小写,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41620476/