我们经常需要从大型数据集
中提取随机样本?在 openrefine
上执行此操作的最佳方法是什么?这对于习惯在 R 和 Python 中执行此操作的从业者来说可能很有用。
预先感谢您的任何建议!
最佳答案
Open Refine 没有内置函数,但您可以使用 Python/Jython 创建新的随机整数列。例如,如果您有 100 000 行:
import random
return random.randint(0, 100000)
然后,您可以对此列进行排序,永久重新排序行,并选择例如带有自定义文本方面的前一千个:
row.index < 1000
编辑:我忘记了this extension来自 @OwenStephens 添加了 randomNumber GREL 函数。请随意安装它。
关于random - 如何在Openrefine中进行随机样本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46063173/