hadoop - pig 分层抽样？

有没有人知道如何对 pig 进行分层抽样？ ( wikipedia )

目前，我会做类似的事情:

relation2 = SAMPLE relation1 0.05;

但我的数据集包含一个出现几次的标签列，其中一些很少见(例如 0.5%)，我希望我的随机下采样不要忘记所有这些。

非常感谢。

最佳答案

您可以通过使用 RANDOM() 实现您自己的采样方法，然后过滤掉值低于 0.95 的行。因此，如果您想对此抽样进行分层，您可以计算行中有多少部分包含特定值，然后相应地缩放随机值，以便以不同的速率对不同的值进行抽样。

关于hadoop - pig 分层抽样？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20909755/

相关文章：

hadoop - 提取 pig 场的一部分