r - 如何从较大的表中生成一批包含随机采样行的表？

标签 r

我有一个包含 6,800,000 行和 35 列的表。我想生成一批 34 个表，每个表包含 200,000 行。之前，我尝试过:

library(data.table)
table <- fread("dataset.preimp") 
table_1 <- table[sample(nrow(table), size = 200000, replace = FALSE) , ]

这会生成一个包含 200000 个随机采样行的表。如果我想制作第二个表，不包括第一个表中包含的行，还有 200000 个随机采样的行，我该怎么做？

最佳答案

将表拆分为 34 个表的列表，每一行出现在一个表中:

table_ids <- sample(rep(1:4, each = 8))
split(mtcars, table_ids)

举个例子:

table_ids <- sample(rep(1:34, each = 200000))
table_list <- split(table, table_ids)

关于r - 如何从较大的表中生成一批包含随机采样行的表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/74465938/

相关文章：

c++ - Mac OS X 上的 RInside