hadoop - pig 分层抽样?

标签 hadoop apache-pig sampling downsampling

有没有人知道如何对 pig 进行分层抽样? ( wikipedia )

目前,我会做类似的事情:

relation2 = SAMPLE relation1 0.05;

但我的数据集包含一个出现几次的标签列,其中一些很少见(例如 0.5%),我希望我的随机下采样不要忘记所有这些。

非常感谢。

最佳答案

您可以通过使用 RANDOM() 实现您自己的采样方法,然后过滤掉值低于 0.95 的行。因此,如果您想对此抽样进行分层,您可以计算行中有多少部分包含特定值,然后相应地缩放随机值,以便以不同的速率对不同的值进行抽样。

关于hadoop - pig 分层抽样?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20909755/

相关文章:

hadoop - 提取 pig 场的一部分

r - 如何对组内的特定大小进行采样?

python - Python 采样模块

python - 无法从 cmd 表单 spark 目录运行 pyspark

sql - 根据 Hive 中 2 个源表的一些规则更新目标中的 "flag"

hadoop - pig : Unable to load data using PigStorage

PHP 从列表中随机选择

hadoop - pig udf中是否有类似setup的功能

java - 为什么将 Mapper 和 Reducer 类声明为静态的?

hadoop - Apache Pig - 如何获取多个包之间匹配元素的数量?