我有一个纵向数据集,其中日期变量有错误。 这是一个例子:
ID 1 在第一行中有第一个日期 2013-07-17
。与研究开始 (2012-08-29
) 的差异是 321
天。在下一行中,访问日期是 2013-02-15
,开始学习的时间差(2012-08-29
)是 169
天.因此,访问日期 2013-07-17
一定有错误,因为访问是按升序排列的。
我试过:
dat$DifferenceDateerror <- "no"
i <- 1
for(i in 1:nrow(dat)){
if(dat[i,"DifferenceDate"] > dat[i+1,"DifferenceDate"] & !is.na(dat$DifferenceDate)[i])
{dat$DifferenceDateerror[i]=="yes"}
}
但出现以下错误:
error in if (dat[i, "DifferenceDate"] > dat[i + 1, : missing value, where TRUE/FALSE is needed
我想找出日期一定是错误的地方。
最佳答案
因为你想在当前日期大于下一个日期的地方添加 "yes"
/"no"
值,我们可以使用 diff
比较连续的日期并相应地分配值。
df$DifferenceDateerror <- c("no", "yes")[c(FALSE, diff(dat$DifferenceDate) < 0)+ 1]
或者类似地使用 head
和 tail
df$DifferenceDateerror <- c("no", "yes")[c(FALSE, head(x, -1) > tail(x, -1)) + 1]
关于r - 比较纵向数据集中连续行中的值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57425607/