r - 我如何根据车牌号和时间离开加入 2 个不同的表?

标签 r

我是 R 新手,并试图根据车牌号和日期时间加入 2 组数据。

数据集 1

LicensePlate DateTime
XLP1234P     09-JUN-18 02.52.40.144000000 PM
XLP2345P     18-JUL-18 11.22.46.855000000 AM
XLP3456P     18-JUL-18 11.22.46.856000000 AM
XLP4567P     18-JUL-18 11.22.46.856000000 AM
XLP5678P     18-JUL-18 11.22.46.857000000 AM
XLP6789P     18-JUL-18 11.22.46.858000000 AM

数据集 2

LicensePlate DateTime
XLP1234P     09-JUN-18 02.55.40.144000000 PM 
XLP2345P     18-JUL-18 11.30.46.855000000 AM

基本上,数据集是由两套不同的设备记录的,因此会有轻微的时间差异。我想以可接受的 10 分钟时差根据车牌离开加入第一组。

left_join 允许我按列值合并数据,但是如何设置日期时间在合适范围内的条件?

最佳答案

这是一种使用 包的可能的非 equi 连接方法。如果 OP 只是在寻找 方法,我将把它记下来

DT1[, c("start", "end") := .(DateTime - 60*10, DateTime + 60*10)]
DT2[DT1, on=.(LicensePlate=LicensePlate, DateTime>=start, DateTime<=end),
    .(LicensePlate, i.DateTime, x.DateTime)]

输出:

   LicensePlate          i.DateTime          x.DateTime
1:     XLP1234P 2018-06-09 02:52:40 2018-06-09 02:55:40
2:     XLP2345P 2018-07-18 11:22:46 2018-07-18 11:30:46
3:     XLP3456P 2018-07-18 11:22:46                <NA>
4:     XLP4567P 2018-07-18 11:22:46                <NA>
5:     XLP5678P 2018-07-18 11:22:46                <NA>
6:     XLP6789P 2018-07-18 11:22:46                <NA>

数据:

library(data.table)
DT1 <- fread("LicensePlate,DateTime 
XLP1234P,09-JUN-18 02.52.40.144000000 PM 
XLP2345P,18-JUL-18 11.22.46.855000000 AM 
XLP3456P,18-JUL-18 11.22.46.856000000 AM 
XLP4567P,18-JUL-18 11.22.46.856000000 AM 
XLP5678P,18-JUL-18 11.22.46.857000000 AM 
XLP6789P,18-JUL-18 11.22.46.858000000 AM")

DT2 <- fread("LicensePlate,DateTime
XLP1234P,09-JUN-18 02.55.40.144000000 PM 
XLP2345P,18-JUL-18 11.30.46.855000000 AM")

DT1[, DateTime := as.POSIXct(DateTime, format="%d-%b-%y %H.%M.%OS")]
DT2[, DateTime := as.POSIXct(DateTime, format="%d-%b-%y %H.%M.%OS")]

关于r - 我如何根据车牌号和时间离开加入 2 个不同的表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58215024/

相关文章:

r - 如何将大数据集分为两个,第一个具有定义的列号,第二个不在R中的第一个数据集中

r - 在 S4 类的插槽上分派(dispatch) S4 方法

r - aggregate(df, ...) 返回 NA?

r - 如何从数据框中为 case_when 构造参数?

r - 用ggplot2从点绘制平均线

r - 模型为空,e1071 包中的 SVM

减少不同长度的嵌套列表

r - 在 R 中读取文件时出错

r - 逐步找到R中列表中最频繁的项目

r - 西类牙语的 tidytext R - 还有其他选择吗?