R:根据特定条件删除重复行

标签 r duplicates

我想根据某些标准删除重复项。 我的数据如下:

Animal<-c("bird","Bird ","Dog","Cat F","Lion","Lion","Lion","dog","Horse","cat", "Lion")

A_date<-c("02-08-2020","20-06-2018","01-01-2015","10-07-2021","20-06-2018","15-08-2019","05-08-2013","20-06-2010","15-11-2016","22-03-2022","15-05-2019")

ID<-c("T1", "T1","T1","T2","T2","T3","T3","T4","T4","T5","T5")

Mydata<-data.frame(Animal, A_date,col_1)

 Animal   A_date       ID
bird     02-08-2020    T1
Bird     20-06-2018    T1
Dog      01-01-2015    T1
Cat F    10-07-2021    T2
Lion     20-06-2018    T2
Lion     15-08-2019    T3
lion     05-08-2013    T3
dog      20-06-2010    T4
Horse    15-11-2016    T4
cat      22-03-2022    T5
Lion     15-05-2019    T5

我想删除重复的行,以便仅删除具有最新日期的行。 ID 将保留。例如,在上表中,狮子以相同的 ID 出现了 3 次。因此,我只想保留 Lion 15-08-2019 T3,但我想保留 ID 为 T5 的 Lion。

最终结果应如下所示:

    Animal   A_date       ID
    Dog      01-01-2015    T1
    bird     02-08-2020    T1
    Dog      01-01-2015    T1
    Cat F    10-07-2021    T2
    Lion     15-08-2019    T3
    dog      20-06-2010    T4
    Horse    15-11-2016    T4
    cat      22-03-2022    T5
    Lion     15-05-2019    T5

我处理的数据非常大,ID从T1到T20。 我已经尝试过以下代码。但无法正常工作

library(lubridate)
library(dplyr)

Mydata <- Mydata %>%
  mutate(Animal = toupper(Animal), A_date = lubridate::dmy(A_date)) %>%
  arrange(A_date)
Mydata %>%
  filter(!duplicated(Animal, fromLast = TRUE))

我得到的结果

Animal A_date ID
DOG   <NA>    T1
HORSE <NA>    T4
BIRD  <NA>    T1
LION  <NA>    T3
BIRD  <NA>    T1
CAT F <NA>    T2
CAT   <NA>    T5

这不是我想要的最终结果。

最佳答案

一种选择是按 IDAnimal 进行分组,然后进行排列,以便对于每个组,最近的日期位于该组的顶部(即,最新的日期)日期),然后对该行进行切片

library(lubridate)
library(dplyr)

Mydata %>%
  mutate(Animal = trimws(toupper(Animal)), A_date = lubridate::dmy(A_date)) %>%
  group_by(ID, Animal) %>%
  arrange(ID, Animal, desc(A_date)) %>%
  slice(1)

输出

  Animal A_date     ID   
  <chr>  <date>     <chr>
1 BIRD   2020-08-02 T1   
2 DOG    2015-01-01 T1   
3 CAT F  2021-07-10 T2   
4 LION   2018-06-20 T2   
5 LION   2019-08-15 T3   
6 DOG    2010-06-20 T4   
7 HORSE  2016-11-15 T4   
8 CAT    2022-03-22 T5   
9 LION   2019-05-15 T5  

关于R:根据特定条件删除重复行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72021137/

相关文章:

php - 打印包含一些 MySQL 记录的数组

javascript - 返回数组中至少出现 3 次的值

r - ggplot2:添加一个新功能并强制它在后面

r - 在多列上使用排列/交叉函数混合升序和降序顺序

r - 如何使用redcapAPI包中的exportRecordsTyped函数导入不带因素的数据?

c++ - 检查 std::vector 是否有重复项

r - 将均值显示为一条线的箱线图

r - R 中的平滑样条曲线中的 'cross-validation with non-unique ' x'值似乎可疑'是什么意思?

ecmascript-6 - 有效地找到对象文字中的重复数据属性?

java - 重复的局部变量 Object[] JOptionPane