random - 如何在Openrefine中进行随机样本?

标签 random data-cleaning openrefine

我们经常需要从大型数据集中提取随机样本?在 openrefine 上执行此操作的最佳方法是什么?这对于习惯在 R 和 Python 中执行此操作的从业者来说可能很有用。

预先感谢您的任何建议!

最佳答案

Open Refine 没有内置函数,但您可以使用 Python/Jython 创建新的随机整数列。例如,如果您有 100 000 行:

import random
return random.randint(0, 100000)

然后,您可以对此列进行排序,永久重新排序行,并选择例如带有自定义文本方面的前一千个:

row.index < 1000

编辑:我忘记了this extension来自 @OwenStephens 添加了 randomNumber GREL 函数。请随意安装它。

enter image description here

关于random - 如何在Openrefine中进行随机样本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46063173/

相关文章:

random - FusionAuth 是否对 Salted PBKDF2 HMAC SHA-256 中的每个密码使用随机盐?

r - 查找 R 数据帧字符串列中的最大数字

r - 删除后面的空格

wikidata - Openrefine 和 wikidata : how to get values (not reconciliation)

python - 如何在 turtle 圆圈和矩形内生成随机点?

php - 回显一个随机变量

Java - 在 java 中生成 0.5 到 6.28 之间的随机数

python - 遇到问题 - 类 'pandas.core.indexing._AtIndexer'

openrefine - 替换函数中的特殊字符

regex - 将正则表达式插入 OpenRefine 方面