r - 使用 data.table 查找间隔之间的差距

我有以下问题:给定一组 不重叠 数据表中的间隔，报告间隔之间的差距。

我已经在 SQL 中实现了一次，但是由于缺少前导函数或滞后函数，我在 data.table 上苦苦挣扎。为了完整起见，我有 here SQL 代码。我知道该功能已在 data.table 版本 1.9.5 中实现。正如 changelog .那么这是否可以使用 data.table 进行，而无需进行大量合并并且没有滞后或领先功能？

原则上，只要性能不受影响，我并不完全反对使用合并(也称为连接)。我认为这有一个简单的实现，但我无法弄清楚如何“获得”上一个结束时间作为我的间隙表的开始时间。

例如:

# The numbers represent seconds from 1970-01-01 01:00:01
dat <- structure(
  list(ID = c(1L, 1L, 1L, 2L, 2L, 2L), 
       stime = structure(c(as.POSIXct("2014-01-15 08:00:00"),
                           as.POSIXct("2014-01-15 11:00:00"),
                           as.POSIXct("2014-01-16 11:30:00"),
                           as.POSIXct("2014-01-15 09:30:00"),
                           as.POSIXct("2014-01-15 12:30:00"),
                           as.POSIXct("2014-01-15 13:30:00")
                           ),
                         class = c("POSIXct", "POSIXt"), tzone = ""),
       etime = structure(c(as.POSIXct("2014-01-15 10:30:00"),
                           as.POSIXct("2014-01-15 12:00:00"),
                           as.POSIXct("2014-01-16 13:00:00"),
                           as.POSIXct("2014-01-15 11:00:00"),
                           as.POSIXct("2014-01-15 12:45:00"),
                           as.POSIXct("2014-01-15 14:30:00")
                           ), 
                         class = c("POSIXct", "POSIXt"), tzone = "")
  ),
  .Names = c("ID", "stime", "etime"),
  sorted = c("ID", "stime", "etime"),
  class = c("data.table", "data.frame"),
  row.names = c(NA,-6L)
)

dat <- data.table(dat)

这导致:

ID               stime               etime
1  2014-01-15 10:30:00 2014-01-15 11:00:00
1  2014-01-15 12:00:00 2014-01-16 11:30:00
2  2014-01-15 11:00:00 2014-01-15 12:30:00
2  2014-01-15 12:45:00 2014-01-15 13:30:00

注意:差距在几天内均匀报告。

最佳答案

大卫答案的变体，可能效率稍低，但输入起来更简单:

setkey(dat, stime)[, .(stime=etime[-.N], etime=stime[-1]), by=ID]

产生:

   ID               stime               etime
1:  1 2014-01-15 10:30:00 2014-01-15 11:00:00
2:  1 2014-01-15 12:00:00 2014-01-16 11:30:00
3:  2 2014-01-15 11:00:00 2014-01-15 12:30:00
4:  2 2014-01-15 12:45:00 2014-01-15 13:30:00

setkey 只是为了确保表按时间排序。

关于r - 使用 data.table 查找间隔之间的差距，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30654830/

r - 使用 data.table 查找间隔之间的差距

上一篇：spring-security - 带有 oidc : refresh the tokens 的 Spring Security

下一篇：testing - 自动化服务器运行的 Testcafe 测试随机失败