我有一个包含 6,800,000 行和 35 列的表。我想生成一批 34 个表,每个表包含 200,000 行。之前,我尝试过:
library(data.table)
table <- fread("dataset.preimp")
table_1 <- table[sample(nrow(table), size = 200000, replace = FALSE) , ]
这会生成一个包含 200000 个随机采样行的表。如果我想制作第二个表,不包括第一个表中包含的行,还有 200000 个随机采样的行,我该怎么做?
最佳答案
将表拆分为 34 个表的列表,每一行出现在一个表中:
table_ids <- sample(rep(1:4, each = 8))
split(mtcars, table_ids)
举个例子:
table_ids <- sample(rep(1:34, each = 200000))
table_list <- split(table, table_ids)
关于r - 如何从较大的表中生成一批包含随机采样行的表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74465938/