为了使这个问题更笼统,我相信它也可以改写为:创建一个滚动的时间敏感因子变量。虽然这是一个不常见的要求,但这可以用于许多不同的数据源。
我有一系列非统一时间数据
,每天有超过 1 条记录供数千名用户使用。我想创建一个新列 player_type
来跟踪他们行为的 30 天滚动定义。行为由他们玩什么游戏来定义; 'games'
列是 gameA、gameB 的一个因素。
因此存在三种类型的行为:
- 独家玩 GameA -
'A'
- 独家玩 GameB -
'B'
- 两种游戏都玩 -
'Hybrid'
我想使用这个新列来查看他们的游戏行为随时间的变化,以及计算整个时间内每个组中的玩家数量,以了解他们如何变化。
每个玩家的时间序列是高度不规则的。玩家可以每天玩多种类型的游戏,或者几个月不玩任何游戏。每个玩家的时间序列是不规则的,因此只有在玩家玩游戏时才会创建记录,因此我希望解决方案可能使用类似这样的过滤器:
interval(current_date, current_date - new_period(days=30)
(使用 lubridate)。
这是一个示例数据集。请记住,它已被简化并测试了 1 天的滚动变化,因此之前检查记录的简单方法实际上不起作用。 如果您能够制作更好的数据集,请提出建议,我将编辑这篇文章。
p <- c( 1, 1, 1, 2, 2, 2, 6, 6, 6)
g <- c('A', 'B', 'B', 'A', 'B', 'A', 'A', 'B', 'B')
d <- seq(as.Date('2014-10-01'), as.Date('2014-10-9'), by=1)
df <- data.frame(player_id = p, date = d, games = g)
作为我需要的输出:
player_id date games type
1 1 2014-10-01 A A (OR NA)
2 1 2014-10-02 B Hybrid
3 1 2014-10-03 B B
4 2 2014-10-04 A A (OR NA)
5 2 2014-10-05 B Hybrid
6 2 2014-10-06 A Hybrid
7 6 2014-10-07 A A (OR NA)
8 6 2014-10-08 B Hybrid
9 6 2014-10-09 B B
解决方案应该是这样的,apply
通过列,并应用一个函数来检查 30 天的时间,以及一个 ifelse()
语句来查看什么他们玩的游戏。
这是一个非常相似的帖子 - 应该有助于解决这个问题。 How do I do a conditional sum which only looks between certain date criteria
我还使用 dplyr 探索了 rowwise()
和条件 mutates()
,但是对我来说捕获的是历史时间组件。
感谢大家的帮助!我非常感谢这个论坛。我会经常回来查看。
最佳答案
假设我没看错,下面是使用 foverlaps()
函数的 data.table
方法。
创建dt
并设置key,如下所示:
dt <- data.table(player_id = p, games = g, date = d, end_date = d)
setkey(dt, player_id, date, end_date)
hybrid_index <- function(dt, roll_days) {
ivals = copy(dt)[, date := date-roll_days]
olaps = foverlaps(ivals, dt, type="any", which=TRUE)
olaps[, val := dt$games[xid] != dt$games[yid]]
olaps[, any(val), by=xid][(V1), xid]
}
我们创建一个虚拟 data.table ivals
(用于间隔),并为每一行指定开始和结束日期.请注意,通过将 end_date 指定为与 dt$end_date
相同,我们肯定会有一个匹配项(这是故意的)- 这将为您提供非 NA 版本要求。
[在这里进行一些小改动,您可以获得 NA
版本,但我会把它留给您(假设这个答案是正确的)。]
这样我们就可以简单地找到 ivals
与 dt
重叠的范围,对于每个 player_id
。我们得到匹配的索引。从那里很简单。如果玩家的游戏是非同质的,那么我们从 hybrid_index
返回相应的 dt
索引。我们将这些索引替换为“混合”。
# roll days = 1L
dt[, type := games][hybrid_index(dt, 1L), type := "hybrid"]
# player_id games date end_date type
# 1: 1 A 2014-10-01 2014-10-01 A
# 2: 1 B 2014-10-02 2014-10-02 hybrid
# 3: 1 B 2014-10-03 2014-10-03 B
# 4: 2 A 2014-10-04 2014-10-04 A
# 5: 2 B 2014-10-05 2014-10-05 hybrid
# 6: 2 A 2014-10-06 2014-10-06 hybrid
# 7: 6 A 2014-10-07 2014-10-07 A
# 8: 6 B 2014-10-08 2014-10-08 hybrid
# 9: 6 B 2014-10-09 2014-10-09 B
# roll days = 2L
dt[, type := games][hybrid_index(dt, 2L), type := "hybrid"]
# player_id games date end_date type
# 1: 1 A 2014-10-01 2014-10-01 A
# 2: 1 B 2014-10-02 2014-10-02 hybrid
# 3: 1 B 2014-10-03 2014-10-03 hybrid
# 4: 2 A 2014-10-04 2014-10-04 A
# 5: 2 B 2014-10-05 2014-10-05 hybrid
# 6: 2 A 2014-10-06 2014-10-06 hybrid
# 7: 6 A 2014-10-07 2014-10-07 A
# 8: 6 B 2014-10-08 2014-10-08 hybrid
# 9: 6 B 2014-10-09 2014-10-09 hybrid
为了清楚地说明这个想法,我创建了一个函数并在函数中复制了 dt
。但是您可以避免这种情况,将 ivals
中的日期直接添加到 dt
并使用 by.x
和 by.y
foverlaps()
中的参数。请查看 ?foverlaps
。
关于r - 根据滚动日期内存在的条件创建新列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27206924/