regex - 按跨多个目录的内容查找重复文件

标签 regex duplicate-data

我从互联网上下载了一些与特定主题相关的文件。现在我想检查文件是否有任何重复项。问题是文件的名称可能不同,但内容可能匹配。

有什么方法可以实现一些代码,它会遍历多个文件夹并通知哪些文件是重复的?

最佳答案

如果你在 linux/*nix 系统上工作,你可以使用 sha 工具,比如 sha512sum ,现在 md5 可以被破坏。

find /path -type f -print0 | xargs -0 sha512sum | awk '($1 in seen){print "duplicate: "$2" and "seen[$1] }(!($1 in  seen)){seen[$1]=$2}' 

如果你想使用 Python,一个简单的实现
import hashlib,os
def sha(filename):    
    ''' function to get sha of file '''
    d = hashlib.sha512()
    try:
        d.update(open(filename).read())
    except Exception,e:
        print e
    else:
        return d.hexdigest()
s={}
path=os.path.join("/home","path1")
for r,d,f in os.walk(path):
    for files in f:
        filename=os.path.join(r,files)
        digest=sha(filename)
        if not s.has_key(digest):
            s[digest]=filename
        else:
            print "Duplicates: %s <==> %s " %( filename, s[digest])

如果你认为 sha512sum 还不够,你可以使用 diff 或 filecmp (Python) 等 unix 工具

关于regex - 按跨多个目录的内容查找重复文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2399196/

相关文章:

regex - 子集不是基于完全匹​​配,而是基于 R 中的部分

javascript - 正则表达式循环问题

javascript - Javascript 中日期的渐进式验证

php - 如何避免Mysql表中出现重复数据?

r - R 中每多列的每个行名(1、2 或 A、B..)的最大值

regex - Perl中匹配日期的正则表达式

python - 根据用户请求或超时后停止正则表达式搜索

c# - 从通用列表<T>中删除重复项

MySQL 在 C :\ProgramData\MySQL and C:\Users\All Users\MySQL? 复制所有数据

c# - 如何从 MS Access 数据库中删除重复行 (C#)