我有一个包含 10k 行的数据框,对于给定的 X 列,我有重复的值,我们如何才能在此列中仅随机选择包含此值的一行?
最佳答案
您的问题并不完全清楚,但我假设您想对整个数据框进行二次采样,为每个“重复类”保留一个(随机选择的)行。就像是
library(plyr)
subsampled_data <- ddply(mydata,.(X),
function(x) {
x[sample(nrow(x),size=1),]
})
应该可以工作( 未测试! )
关于在数据框上随机选择唯一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8041720/