有没有人知道如何对 pig 进行分层抽样? ( wikipedia )
目前,我会做类似的事情:
relation2 = SAMPLE relation1 0.05;
但我的数据集包含一个出现几次的标签列,其中一些很少见(例如 0.5%),我希望我的随机下采样不要忘记所有这些。
非常感谢。
最佳答案
您可以通过使用 RANDOM()
实现您自己的采样方法,然后过滤掉值低于 0.95 的行。因此,如果您想对此抽样进行分层,您可以计算行中有多少部分包含特定值,然后相应地缩放随机值,以便以不同的速率对不同的值进行抽样。
关于hadoop - pig 分层抽样?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20909755/