r - 按组查找运行最大值

我需要使用 R 按组查找变量的运行最大值。使用 df[order(df$group, df$time),] 按组内的时间对变量进行排序.

我的变量有一些 NA，但我可以通过在此计算中用零替换它们来处理它。

这是数据框 df 的样子:

(df <- structure(list(var = c(5L, 2L, 3L, 4L, 0L, 3L, 6L, 4L, 8L, 4L),
               group = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L),
                                 .Label = c("a", "b"), class = "factor"),
               time = c(1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L)),
          .Names = c("var", "group","time"),
          class = "data.frame", row.names = c(NA, -10L)))

#    var group time
# 1    5     a    1
# 2    2     a    2
# 3    3     a    3
# 4    4     a    4
# 5    0     a    5
# 6    3     b    1
# 7    6     b    2
# 8    4     b    3
# 9    8     b    4
# 10   4     b    5

我想要一个变量 curMax 为:

var  |  group  |  time  |  curMax
5       a         1         5
2       a         2         5
3       a         3         5
4       a         4         5
0       a         5         5
3       b         1         3
6       b         2         6
4       b         3         6
8       b         4         8
4       b         5         8

如果您知道如何在 R 中实现它，请告诉我。

最佳答案

我们可以试试data.table .将 'data.frame' 转换为 'data.table' ( setDT(df1) )，按 'group' 分组，我们得到 cummax 'var' 并将其分配 ( := ) 给一个新变量 ('curMax')

library(data.table)
setDT(df1)[, curMax := cummax(var), by = group]

正如@Michael Chirico 所评论的，如果数据不是 order由“时间”编辑，我们可以在“我”中做到这一点

setDT(df1)[order(time), curMax:=cummax(var), by = group]

或与 dplyr

library(dplyr)
df1 %>% 
    group_by(group) %>%
    mutate(curMax = cummax(var))

如 df1是 tbl_sql可能需要显式排序，使用 arrange

df1 %>% 
    group_by(group) %>%
    arrange(time, .by_group=TRUE) %>%
    mutate(curMax = cummax(var))

或 dbplyr::window_order

library(dbplyr)

df1 %>% 
    group_by(group) %>%
    window_order(time) %>%
    mutate(curMax = cummax(var))

关于r - 按组查找运行最大值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34069496/

r - 按组查找运行最大值

上一篇：javascript - 是否可以将事件监听器绑定(bind)到来自外部脚本的影子 dom 内的元素？

下一篇：c++ - 为什么在传递 long long 时调用具有两个 double 类型参数的重载函数？