hadoop - 过滤后的计数值 - Apache PIG

我有以下声明

Values = FILTER Input_Data BY Fields > 0

如何统计过滤和未过滤的记录数？

最佳答案

-- split into 2 datasets
SPLIT Input_data INTO A IF Field > 0, B if Field <= 0;

-- count > 0 records
A_grp = GROUP A ALL;
A_count = FOREACH A_grp GENERATE COUNT(A);

-- count <= 0 records
B_grp = GROUP B ALL;
B_count = FOREACH B_grp GENERATE COUNT(B);

希望这会有所帮助!!

关于hadoop - 过滤后的计数值 - Apache PIG，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39533846/

上一篇：hadoop - 在 HIVE 中，在 4 列上连接 2 个表时什么能提供最佳性能？键列类型 String、Int 或 binary？

下一篇：amazon-web-services - Hive 查询抛出异常 - 编译语句 : FAILED: ArrayIndexOutOfBoundsException null 时出错

hadoop - 向 hive 表中插入数据

java - 编译 Hadoop 2.2.0 作业？

hadoop - Cloudera VM，压缩编解码器

csv - Pig CSVExcelStorage 双引号逗号

mysql - 当我尝试删除数据库并且使用 mysql 作为元存储时，为什么 Hive 会给出元异常？

hadoop - 在 hadoop 作业中指定作业属性和覆盖属性

hadoop - 从Hive查询HBase表

java - 基本数学运算

hadoop - 执行连接时 Hive vs Pig