r - 根据滚动日期内存在的条件创建新列

标签 r conditional data.table dplyr date-range

为了使这个问题更笼统,我相信它也可以改写为:创建一个滚动的时间敏感因子变量。虽然这是一个不常见的要求,但这可以用于许多不同的数据源。

我有一系列非统一时间数据,每天有超过 1 条记录供数千名用户使用。我想创建一个新列 player_type 来跟踪他们行为的 30 天滚动定义。行为由他们玩什么游戏来定义; 'games' 列是 gameA、gameB 的一个因素。

因此存在三种类型的行为:

  1. 独家玩 GameA - 'A'
  2. 独家玩 GameB - 'B'
  3. 两种游戏都玩 - 'Hybrid'

我想使用这个新列来查看他们的游戏行为随时间的变化,以及计算整个时间内每个组中的玩家数量,以了解他们如何变化。

每个玩家的时间序列是高度不规则的。玩家可以每天玩多种类型的游戏,或者几个月不玩任何游戏。每个玩家的时间序列是不规则的,因此只有在玩家玩游戏时才会创建记录,因此我希望解决方案可能使用类似这样的过滤器:

interval(current_date, current_date - new_period(days=30)(使用 lubridate)。

这是一个示例数据集。请记住,它已被简化并测试了 1 天的滚动变化,因此之前检查记录的简单方法实际上不起作用。 如果您能够制作更好的数据集,请提出建议,我将编辑这篇文章。

p <- c( 1,   1,   1,   2,   2,   2,   6,   6,   6)

g <- c('A', 'B', 'B', 'A', 'B', 'A', 'A', 'B', 'B')

d <- seq(as.Date('2014-10-01'), as.Date('2014-10-9'), by=1)

df <- data.frame(player_id = p, date = d, games = g)

作为我需要的输出:

 player_id       date games   type
1         1 2014-10-01     A      A (OR NA)
2         1 2014-10-02     B Hybrid
3         1 2014-10-03     B      B
4         2 2014-10-04     A      A (OR NA)
5         2 2014-10-05     B Hybrid
6         2 2014-10-06     A Hybrid
7         6 2014-10-07     A      A (OR NA)
8         6 2014-10-08     B Hybrid
9         6 2014-10-09     B      B

解决方案应该是这样的,apply 通过列,并应用一个函数来检查 30 天的时间,以及一个 ifelse() 语句来查看什么他们玩的游戏。

这是一个非常相似的帖子 - 应该有助于解决这个问题。 How do I do a conditional sum which only looks between certain date criteria

我还使用 dplyr 探索了 rowwise() 和条件 mutates(),但是对我来说捕获的是历史时间组件。

感谢大家的帮助!我非常感谢这个论坛。我会经常回来查看。

最佳答案

假设我没看错,下面是使用 foverlaps() 函数的 data.table 方法。

创建dt并设置key,如下所示:

dt <- data.table(player_id = p, games = g, date = d, end_date = d)
setkey(dt, player_id, date, end_date)

hybrid_index <- function(dt, roll_days) {
    ivals = copy(dt)[, date := date-roll_days]
    olaps = foverlaps(ivals, dt, type="any", which=TRUE)
    olaps[, val := dt$games[xid] != dt$games[yid]]
    olaps[, any(val), by=xid][(V1), xid]
}

我们创建一个虚拟 data.table ivals(用于间隔),并为每一行指定开始结束日期.请注意,通过将 end_date 指定为与​​ dt$end_date 相同,我们肯定会有一个匹配项(这是故意的)- 这将为您提供非 NA 版本要求。

[在这里进行一些小改动,您可以获得 NA 版本,但我会把它留给您(假设这个答案是正确的)。]

这样我们就可以简单地找到 ivalsdt 重叠的范围,对于每个 player_id。我们得到匹配的索引。从那里很简单。如果玩家的游戏是非同质的,那么我们从 hybrid_index 返回相应的 dt 索引。我们将这些索引替换为“混合”。

# roll days = 1L
dt[, type := games][hybrid_index(dt, 1L), type := "hybrid"]
#    player_id games       date   end_date   type
# 1:         1     A 2014-10-01 2014-10-01      A
# 2:         1     B 2014-10-02 2014-10-02 hybrid
# 3:         1     B 2014-10-03 2014-10-03      B
# 4:         2     A 2014-10-04 2014-10-04      A
# 5:         2     B 2014-10-05 2014-10-05 hybrid
# 6:         2     A 2014-10-06 2014-10-06 hybrid
# 7:         6     A 2014-10-07 2014-10-07      A
# 8:         6     B 2014-10-08 2014-10-08 hybrid
# 9:         6     B 2014-10-09 2014-10-09      B

# roll days = 2L
dt[, type := games][hybrid_index(dt, 2L), type := "hybrid"]
#    player_id games       date   end_date   type
# 1:         1     A 2014-10-01 2014-10-01      A
# 2:         1     B 2014-10-02 2014-10-02 hybrid
# 3:         1     B 2014-10-03 2014-10-03 hybrid
# 4:         2     A 2014-10-04 2014-10-04      A
# 5:         2     B 2014-10-05 2014-10-05 hybrid
# 6:         2     A 2014-10-06 2014-10-06 hybrid
# 7:         6     A 2014-10-07 2014-10-07      A
# 8:         6     B 2014-10-08 2014-10-08 hybrid
# 9:         6     B 2014-10-09 2014-10-09 hybrid

为了清楚地说明这个想法,我创建了一个函数并在函数中复制了 dt。但是您可以避免这种情况,将 ivals 中的日期直接添加到 dt 并使用 by.xby.y foverlaps() 中的参数。请查看 ?foverlaps

关于r - 根据滚动日期内存在的条件创建新列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27206924/

相关文章:

r - 使用逗号分隔的长度不等的数字字符串对多列进行数学运算

r - 匹配和计算 R 中的字符串

R 从唯一行创建新列(散列列)

r - 如何整理一个固定宽度的文件,每 n (可变) 行带有标题?

r - 在 Excel 中复制具有格式的工作表

objective-c - '?:' 和 objective-c 中的 if 语句有什么区别吗?

reactjs - react 错误处理获取数据 field 列表

php - Wordpress,如果循环没有结果,则不显示标题

r - Tidyverse 按行绑定(bind)未命名向量列表的方法 - do.call(rbind,x) 等效

r - 在 R : Send a modified windows command to fread() 中