hadoop - 过滤后的计数值 - Apache PIG

标签 hadoop apache-pig hadoop2

我有以下声明

Values = FILTER Input_Data BY Fields > 0 

如何统计过滤和未过滤的记录数?

最佳答案

-- split into 2 datasets
SPLIT Input_data INTO A IF Field > 0, B if Field <= 0;

-- count > 0 records
A_grp = GROUP A ALL;
A_count = FOREACH A_grp GENERATE COUNT(A);

-- count <= 0 records
B_grp = GROUP B ALL;
B_count = FOREACH B_grp GENERATE COUNT(B);

希望这会有所帮助!!

关于hadoop - 过滤后的计数值 - Apache PIG,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39533846/

相关文章:

hadoop - fs.rename(newPath(raw FileName), in Path(process FileName)) 不工作

hadoop - 向 hive 表中插入数据

java - 编译 Hadoop 2.2.0 作业?

hadoop - Cloudera VM,压缩编解码器

csv - Pig CSVExcelStorage 双引号逗号

mysql - 当我尝试删除数据库并且使用 mysql 作为元存储时,为什么 Hive 会给出元异常?

hadoop - 在 hadoop 作业中指定作业属性和覆盖属性

hadoop - 从Hive查询HBase表

java - 基本数学运算

hadoop - 执行连接时 Hive vs Pig