r - 在新创建的列中,使用上面行中的值使用 dplyr 计算下一行

标签 r dplyr

假设我有一个如下所示的数据框:

library(dplyr)
library(tibble)
df <- tibble(t = 1:3, a = c(4, 6, 11), b = 1:3, c = c(1, 3, 2))

df
# A tibble: 3 x 4
#       t     a     b     c
#   <int> <dbl> <int> <dbl>
# 1     1     4     1     1
# 2     2     6     2     3
# 3     3    11     3     2

我想计算一个新列d,使得

d(0) = a

d(t) = d(t-1) + b(t-1) + c(t-1)

我可以用 for 循环(痛苦地)做到这一点:

for_loop <- add_column(df, d = 0)
for (i in 1:nrow(df)) {
  if(i == 1) {
    for_loop[i,]$d <- for_loop[i,]$a
  }
  else {
    for_loop[i,]$d <- for_loop[i-1,]$d + for_loop[i-1,]$b + for_loop[i-1,]$c
  }
}
for_loop
# A tibble: 3 x 5
#       t     a     b     c     d
#   <int> <dbl> <int> <dbl> <dbl>
# 1     1     4     1     1     4
# 2     2     6     2     3     6
# 3     3    11     3     2    11

但我想使用 dplyr 来做到这一点。尝试简单的 ifelse 似乎不起作用,因为计算是矢量化的,因此使用 d 的旧值:

tidy <- add_column(df, d = 0) %>%
  mutate(tidy, d = ifelse(row_number(d)==1, a, lag(d) + lag(b) + lag(c)))
tidy
# A tibble: 3 x 5
#       t     a     b     c     d
#   <int> <dbl> <int> <dbl> <dbl>
# 1     1     4     1     1     4
# 2     2     6     2     3     2
# 3     3    11     3     2     5

如何使用 dplyr 来使用 d 的先前值来计算 d 的新值?

最佳答案

您可以对滞后的 b+c 执行 cumsum,然后将初始值 a[1] 添加到结果中:

df %>% mutate(d = a[1] + cumsum(lag(b + c, default = 0)))

# A tibble: 3 x 5
#      t     a     b     c     d
#  <int> <dbl> <int> <dbl> <dbl>
#1     1     4     1     1     4
#2     2     6     2     3     6
#3     3    11     3     2    11

为了对其进行矢量化,您需要从公式中消除前面的 d (d[t-1]),如下所示:

d[t] = d[t-1] + b[t-1] + c[t-1]  
     = d[t-2] + b[t-2] + c[t-2] + b[t-1] + c[t-1]
     = d[1] + 0 + b[1] + b[2] + ... + b[t-1] + 0 + c[1] + c[2] + ... + c[t-1]
     = a[1] + sum(lag(b + c, default=0))

d = a[1] + cumsum(lag(b + c, default = 0))

关于r - 在新创建的列中,使用上面行中的值使用 dplyr 计算下一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47057773/

相关文章:

datetime - 将每小时数据汇总为每日汇总

r - r中的选择性缩放函数使用不同的数据框进行缩放

r - 如何选择非唯一的列组合?

r - 避免 R 中的函数名冲突

r - 如何查找ANY列是否具有我要查找的特定值?

r - 了解并行TSQL连接

arrays - 在多维数组上使用 apply

r - 了解数据框列表的 lapply

python - 相当于 R/dplyr group_by 的 Pandas 总结串联

r - 使用 R ifelse() 定义图中的颜色