r - 通过比较前一行和下一行进行条件数据标记

标签 r function dplyr diff

具有以下类型的数据,并希望通过检查 NA 行的 i-1 和 i+1 行来重新标记其 NA 行。

test <- data.frame(sd_value=c(77,18,3,16,32,76),  
                   value=c(5400,6900,7080,1892,4207,4403), 
                   label=c(c("good",NA,"unable"),c("bads",NA,"good")))

> test
  sd_value value  label
1       77  5400   good
2       18  6900   <NA>
3        3  7080 unable
4       16  1892   bads
5       32  4207   <NA>
6       76  4403   good

我想要重新标记 NA 行的条件是

在简单的图片中:将前一行和后一行的值与 NA 行进行比较。如果差异为 <200,则使用该行的标签作为 NA 行。

如果上一行或下一行,则有一个特殊条件。

  1. 如果 NA 的 i-1 或 i+1 行与 diff(value) 之间的差异 <200 且与 diff(sd_value) 相同 <50,则使用 i-1 或 i+ 1行符合条件的标签。

  2. 如果差异 i+1 标记为 good 且行 diff(value)<200 且与 diff(sd_value)<50 相同 使用新的 eww! 标签。

预期输出

> test
      sd_value value  label
    1       77  5400   good
    2       18  6900 unable
    3        3  7080 unable
    4       16  1892   bads
    5       32  4207   eww!
    6       76  4403   good

检查 i-1 和 i+1 的差异值

> test%>%
+   mutate(diff_val=c(0,diff(value)), diff_sd_val=c(0,diff(sd_value)))

  sd_value value  label diff_val diff_sd_val
1       77  5400   good        0           0
2       18  6900   <NA>     1500         -59
3        3  7080 unable      180         -15
4       16  1892   bads    -5188          13
5       32  4207   <NA>     2315          16
6       76  4403   good      196          44

最佳答案

免责声明:我使用的是manymodelr的开发者版本(为了节省时间)我写的。

library(manymodelr) 
library(dplyr)
res<-rowdiff(test,"reverse")
names(res)<-c("sd_diff","diff_val")

#if difference between i-1 or i+1 row of NA 
#and diff(value) <200 and same as for diff(sd_value) <50 use i-1 or i+1 row's 
#label that meets the condition.
#if difference i+1 is labeled good and row diff(value)<200 and 
#same as for diff(sd_value)<50 use new eww! label.
df_bound<-cbind(test,res)
df_bound %>% 
  mutate(label=ifelse(is.na(label) & lead(label,1)=="good","eww",label),
         label=ifelse(is.na(label) & lead(diff_val,1)<200,lead(label,1),label))

结果:NA可以替换为0。sd_diff和diff_val可以删除。

sd_value value  label sd_diff diff_val
1       77  5400   good      NA       NA
2       18  6900 unable     -59     1500
3        3  7080 unable     -15      180
4       16  1892   bads      13    -5188
5       32  4207    eww      16     2315
6       76  4403   good      44      196

关于r - 通过比较前一行和下一行进行条件数据标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55789202/

相关文章:

r - 使用 dplyr 函数进行管道化时使用方括号进行子集化

r - 增加 Shiny 中的最大上传文件大小

ios - 如何将函数头中的 DSPDoubleSplitComplex 数字数组表示为输入或输出?

t-sql - T SQL 基于参数值的条件连接

r - 为什么我的 Rcpp 代码没有快多少?

r - .jcall(cell, "V", "setCellValue", value) : method setCellValue with signature ([D)V not found when attempting write. xlsx 中的错误

c - C如何调用不带参数的函数?

r - 如何在r中随机保留一个重复行(不是第一个重复行)

r - dplyr rowwise,在第二个数据框中找到最接近的(纬度,经度)记录

r - 如何在 R 中正确过滤日期