我知道如何使用 dplyr 中的sample_n或sample_frac从数据帧中的每组中抽取随机样本,可以像这样,
dataset %>%
group_by(user_id) %>%
sample_n(10)
但是,我有一个稍微不同的问题。我想从整个数据集中随机抽取一个样本。应该就这么简单,
sample_n(dataset,10)
但是,因为我在之前的案例中对数据集使用了group_by命令,所以group_by在这里似乎仍然有效。这里第二个命令与第一个命令等效。
我想知道如何消除 group_by 的影响并从整个数据集中获取随机样本?
最佳答案
我们可以使用ungroup()
删除任何组变量,然后应用sample_n
dataset %>%
group_by(user_id) %>%
ungroup() %>%
sample_n(10)
关于r - 在 dplyr, R 中抽取没有组的样本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39011246/