假设我有一个如下所示的数据框:
library(dplyr)
library(tibble)
df <- tibble(t = 1:3, a = c(4, 6, 11), b = 1:3, c = c(1, 3, 2))
df
# A tibble: 3 x 4
# t a b c
# <int> <dbl> <int> <dbl>
# 1 1 4 1 1
# 2 2 6 2 3
# 3 3 11 3 2
我想计算一个新列d
,使得
d(0) = a
d(t) = d(t-1) + b(t-1) + c(t-1)
我可以用 for 循环(痛苦地)做到这一点:
for_loop <- add_column(df, d = 0)
for (i in 1:nrow(df)) {
if(i == 1) {
for_loop[i,]$d <- for_loop[i,]$a
}
else {
for_loop[i,]$d <- for_loop[i-1,]$d + for_loop[i-1,]$b + for_loop[i-1,]$c
}
}
for_loop
# A tibble: 3 x 5
# t a b c d
# <int> <dbl> <int> <dbl> <dbl>
# 1 1 4 1 1 4
# 2 2 6 2 3 6
# 3 3 11 3 2 11
但我想使用 dplyr 来做到这一点。尝试简单的 ifelse 似乎不起作用,因为计算是矢量化的,因此使用 d
的旧值:
tidy <- add_column(df, d = 0) %>%
mutate(tidy, d = ifelse(row_number(d)==1, a, lag(d) + lag(b) + lag(c)))
tidy
# A tibble: 3 x 5
# t a b c d
# <int> <dbl> <int> <dbl> <dbl>
# 1 1 4 1 1 4
# 2 2 6 2 3 2
# 3 3 11 3 2 5
如何使用 dplyr 来使用 d
的先前值来计算 d
的新值?
最佳答案
您可以对滞后的 b+c
执行 cumsum
,然后将初始值 a[1]
添加到结果中:
df %>% mutate(d = a[1] + cumsum(lag(b + c, default = 0)))
# A tibble: 3 x 5
# t a b c d
# <int> <dbl> <int> <dbl> <dbl>
#1 1 4 1 1 4
#2 2 6 2 3 6
#3 3 11 3 2 11
为了对其进行矢量化,您需要从公式中消除前面的 d
(d[t-1]),如下所示:
d[t] = d[t-1] + b[t-1] + c[t-1]
= d[t-2] + b[t-2] + c[t-2] + b[t-1] + c[t-1]
= d[1] + 0 + b[1] + b[2] + ... + b[t-1] + 0 + c[1] + c[2] + ... + c[t-1]
= a[1] + sum(lag(b + c, default=0))
d = a[1] + cumsum(lag(b + c, default = 0))
关于r - 在新创建的列中,使用上面行中的值使用 dplyr 计算下一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47057773/