在数据框上随机选择唯一行

标签 r

我有一个包含 10k 行的数据框,对于给定的 X 列,我有重复的值,我们如何才能在此列中仅随机选择包含此值的一行?

最佳答案

您的问题并不完全清楚,但我假设您想对整个数据框进行二次采样,为每个“重复类”保留一个(随机选择的)行。就像是

library(plyr)
subsampled_data <- ddply(mydata,.(X),
    function(x) {
          x[sample(nrow(x),size=1),]
    })

应该可以工作( 未测试! )

关于在数据框上随机选择唯一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8041720/

相关文章:

R:圣诞树

r - 使用一组规则的多列方差

r - 不使用<-的子集数据表

r - 仅在某些方面 ggplot 中添加注释(段/箭头)

r - 使用 SparkR 1.5 从 RStudio 中的 hdfs 读取大文件(纯文本、xml、json、csv)的选项

r - 多元回归遗漏一个变量(列)

r - 在单个3D图中混合表面和散点图

r - R中的等频和等宽分箱

python - Python 的 hashlib.sha256(x).hexdigest() 是否等同于 Rs digest(x,algo ="sha256")

r - 在 dplyr 中应用三规则