使用 R. Base 包、dplyr 或 data.table 都可以让我使用。我的数据是 ~1000 行 x 20 列。我预计大约有 300 个重复项。
我想做类似以下的事情,但有一个改动:
Match/group duplicate rows (indices)
我想找到,不是完全重复的行,而是在两列中重复的行。
例如,给定这个输入表:
File T.N ID Col1 Col2
BAI.txt T 1 sdaf eiri
BAJ.txt N 2 fdd fds
BBK.txt T 1 ter ase
BCD.txt N 1 twe ase
如果我只想在 T.N 和 ID 中找到重复项,我最终会得到下表:
File T.N ID Col1 Col2
BAI.txt T 1 sdaf eiri
BBK.txt T 1 ter ase
最佳答案
这是一个使用 duplicated
的选项两次,第二次以及 fromLast = TRUE
选项,因为它仅从重复值开始返回 TRUE
dupe = data[,c('T.N','ID')] # select columns to check duplicates
data[duplicated(dupe) | duplicated(dupe, fromLast=TRUE),]
# File T.N ID Col1 Col2
#1 BAI.txt T 1 sdaf eiri
#3 BBK.txt T 1 ter ase
关于R - 基于两列查找并列出重复的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35951207/