hadoop - 在 PIG 中如何删除相似值

标签 hadoop apache-pig

在我的 pig 脚本中,我有一个 country1 和 country2 的列以及一个 id。在我的国家/地区字段中,一些值类似于以下内容。如何过滤掉至少有 2 个连续相同字符的相似值?

例如:

a = load file
a = generate id, country1, country2

输出:

id1, us, usa
id2, gb, gba
id3, in, ind
id4, in, usa

expected output:
id4, in, usa

最佳答案

使用SUBSTRING获取第 3 列的前两个字符并将其与第 2 列的值进行比较。

B = FILTER A BY (LOWER(A.$1) != SUBSTRING(LOWER(A.$2),0,2));
DUMP B;

关于hadoop - 在 PIG 中如何删除相似值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41624615/

相关文章:

hadoop - 为 hadoop/PIG 输出数据分配 ID

python - 如何从 Pig 中的 Python UDF 进行打印?

hadoop - pig : Perform task on completion of UDF

hadoop - CDH4 Hbase 使用 Pig ERROR 2998 java.lang.NoClassDefFoundError : org/apache/hadoop/hbase/filter/Filter

hadoop - 在 spark 中访问 Hive 表

hadoop - mapreduce 的哪个部分/类是停止 reduce 任务的逻辑实现

java - Hadoop context.write()缓冲区大小

hadoop - 实时设置环境变量。谷歌大查询

hadoop - 关于 PIG 的查询 - 如何在 ForEach 中放置类似 if 的条件

java - hadoop reducer 进度 100% 但没有结束