R - 基于两列查找并列出重复的行

标签 r

使用 R. Base 包、dplyr 或 data.table 都可以让我使用。我的数据是 ~1000 行 x 20 列。我预计大约有 300 个重复项。

我想做类似以下的事情，但有一个改动:

Match/group duplicate rows (indices)

我想找到，不是完全重复的行，而是在两列中重复的行。
例如，给定这个输入表:

File     T.N     ID     Col1     Col2
BAI.txt   T      1       sdaf    eiri
BAJ.txt   N      2       fdd     fds
BBK.txt   T      1       ter     ase
BCD.txt   N      1       twe     ase

如果我只想在 T.N 和 ID 中找到重复项，我最终会得到下表:

File     T.N     ID     Col1     Col2
BAI.txt   T      1       sdaf    eiri
BBK.txt   T      1       ter     ase

最佳答案

这是一个使用 duplicated 的选项两次，第二次以及 fromLast = TRUE选项，因为它仅从重复值开始返回 TRUE

dupe = data[,c('T.N','ID')] # select columns to check duplicates
data[duplicated(dupe) | duplicated(dupe, fromLast=TRUE),]

#     File T.N ID Col1 Col2
#1 BAI.txt   T  1 sdaf eiri
#3 BBK.txt   T  1  ter  ase

关于R - 基于两列查找并列出重复的行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35951207/

上一篇：java - 为什么这个 vector 的大小是1？

下一篇：angularjs - Symfony2 和 Angular。用户认证

sql - 收到此错误 "first argument is not an open RODBC channel"

r - R 中一列的每个字符串与另一列的每个字符串的组合

r - 如何使用roxygen正确记录S4 “[”和“[<-”方法？

r - 将 vector1 中的每个元素与 vector2 中的每个元素进行比较的矩阵

r - 合并两个数据帧 R

r - 一种在knitr中复制 block 的方法？

r - 通过匹配R中的字符串将行转换为列

r - 确定数据框列的数据类型

r - ggplot2 直方图 scale_fill_gradient 不适用于连续变量