r - 如何从较大的表中生成一批包含随机采样行的表?

标签 r

我有一个包含 6,800,000 行和 35 列的表。我想生成一批 34 个表,每个表包含 200,000 行。之前,我尝试过:

library(data.table)
table <- fread("dataset.preimp") 
table_1 <- table[sample(nrow(table), size = 200000, replace = FALSE) , ]

这会生成一个包含 200000 个随机采样行的表。如果我想制作第二个表,不包括第一个表中包含的行,还有 200000 个随机采样的行,我该怎么做?

最佳答案

将表拆分为 34 个表的列表,每一行出现在一个表中:

table_ids <- sample(rep(1:4, each = 8))
split(mtcars, table_ids)

举个例子:

table_ids <- sample(rep(1:34, each = 200000))
table_list <- split(table, table_ids)

关于r - 如何从较大的表中生成一批包含随机采样行的表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74465938/

相关文章:

c++ - Mac OS X 上的 RInside

r - 如何在R中有多个窗口

R: ggplot2 与 geom_map 返回 "x and units must have length > 0"错误,尽管值转换为因子

r - 有条件的事件计数器

r - 子集均值的均值

regex - 测试字符串中的数字元素

r - 我的数组太大,无法分配。我该怎么做才能将其分成更小的 block ?我无法使用 split(),因为我无法分配 128.0 Gb 的向量

r - 如何从 apriori R(关联规则)中提取信息

r - 数据框列名称中的句点后的大写字母

r - 如何在 R 中绘制 logistic glm 预测值和置信区间