R从两列创建一个序列表

标签 r dataframe seq

我有如下表格

product=c("a","b","c")
min=c(1,5,3)
max=c(1,7,7)
dd=data.frame(product,min,max)
> dd
  product min max
1       a   1   1
2       b   5   7
3       c   3   7

我想创建一个如下所示的表格。我想为产品的最小值和最大值之间(包括最小值和最大值)之间的每个值创建一行

product mm
a 1
b 5
b 6
b 7
c 3
c 4
c 5
c 6
c 7

我如何使用 R 来做到这一点?有什么套餐可以快速见效吗?

最佳答案

尝试

library(data.table)
setDT(dd)[, list(mm=min:max), by = product]
#   product mm
#1:       a  1
#2:       b  5
#3:       b  6
#4:       b  7
#5:       c  3
#6:       c  4
#7:       c  5
#8:       c  6
#9:       c  7

或者更快的选择是 seq.int(min, max, 1L) 正如@David Arenburg 所建议的

 setDT(dd)[, list(mm = seq.int(min, max, 1L)), by = product]

基准

library(stringi)
set.seed(24)
product <- unique(stri_rand_strings(1e5,4))
min1 <- sample(1:10, length(product), replace=TRUE)
max1 <- sample(11:15, length(product), replace=TRUE)
dd <- data.frame(product, min1, max1)
dd2 <- copy(dd)

josilber <- function(){res1 <- data.frame(product=rep(dd$product,
                        dd$max1-dd$min1+1),
                  mm=unlist(mapply(seq, dd$min1, dd$max1)))
          }

akrun <- function(){as.data.table(dd2)[, list(mm = seq.int(min1, max1,
          1L)), by = product]}
Ananda <- function() {stack(lapply(split(dd[-1], dd[1]), 
                              function(x) seq(x[[1]], x[[2]])))}
jiber <- function(){res <- by(dd[,-1], dd[,1], function(x) 
              seq(x$min1, x$max1) )
             res <-  as.data.frame(unlist(res))
        data.frame(product=gsub("[0-9]", "", rownames(res)), mm=res[,1])}

system.time(akrun())
#   user  system elapsed 
# 0.129   0.001   0.129 
system.time(josilber())
#  user  system elapsed 
# 0.762   0.002   0.764 

 system.time(Ananda())
 #  user  system elapsed 
 #45.449   0.191  45.636 

system.time(jiber())
#  user  system elapsed 
# 48.013   8.218  56.291 

library(microbenchmark)
microbenchmark(josilber(), akrun(), times=20L, unit='relative')
#Unit: relative
#     expr     min       lq     mean   median       uq      max neval cld
#josilber() 6.39757 6.713236 5.570836 5.901037 5.603639 3.970663    20  b
#   akrun() 1.00000 1.000000 1.000000 1.000000 1.000000 1.000000    20  a 

关于R从两列创建一个序列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30602821/

相关文章:

c# - 如何在parallel.for中强制执行有序执行序列?

.net - 使用 Seq.cast 时出现问题

R - 分析分类变量对连续变量的影响

使用 dplyr 在组内重复第一次观察

python - Pandas 创建 df,它是另一个 df 中列的乘积

r - 如何在R中仅创建时间

r - 在R中循环操作下绘制图形

r - 你如何在 Sweave 中循环一个全局变量

python - 在 pandas 中使用正则表达式验证字符串

f# - Seq.append 时间和空间是 O(1) 吗?