R - 基于两列查找并列出重复的行

标签 r

使用 R. Base 包、dplyr 或 data.table 都可以让我使用。我的数据是 ~1000 行 x 20 列。我预计大约有 300 个重复项。

我想做类似以下的事情,但有一个改动:

Match/group duplicate rows (indices)

我想找到,不是完全重复的行,而是在两列中重复的行。
例如,给定这个输入表:

File     T.N     ID     Col1     Col2
BAI.txt   T      1       sdaf    eiri
BAJ.txt   N      2       fdd     fds
BBK.txt   T      1       ter     ase
BCD.txt   N      1       twe     ase

如果我只想在 T.N 和 ID 中找到重复项,我最终会得到下表:
File     T.N     ID     Col1     Col2
BAI.txt   T      1       sdaf    eiri
BBK.txt   T      1       ter     ase

最佳答案

这是一个使用 duplicated 的选项两次,第二次以及 fromLast = TRUE选项,因为它仅从重复值开始返回 TRUE

dupe = data[,c('T.N','ID')] # select columns to check duplicates
data[duplicated(dupe) | duplicated(dupe, fromLast=TRUE),]

#     File T.N ID Col1 Col2
#1 BAI.txt   T  1 sdaf eiri
#3 BBK.txt   T  1  ter  ase

关于R - 基于两列查找并列出重复的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35951207/

相关文章:

r - 如何在没有管理员权限的情况下在 knitr 中使用 fig.show=animate

sql - 收到此错误 "first argument is not an open RODBC channel"

r - R 中一列的每个字符串与另一列的每个字符串的组合

r - 如何使用roxygen正确记录S4 “[”和“[<-”方法?

r - 将 vector1 中的每个元素与 vector2 中的每个元素进行比较的矩阵

r - 合并两个数据帧 R

r - 一种在knitr中复制 block 的方法?

r - 通过匹配R中的字符串将行转换为列

r - 确定数据框列的数据类型

r - ggplot2 直方图 scale_fill_gradient 不适用于连续变量