algorithm - 重复数据删除算法

标签 algorithm duplicate-data

我想找到重复数据删除算法,主要是为了查找重复文件。看起来第一步是识别具有相同时间戳、大小和文件名的文件。我可以对这些文件进行 MD5 校验和比较。除此之外,还可以比较文件的内容。我还应该注意什么?

最佳答案

您有操作系统元信息(大小和时间戳)。其他元信息包括权限。您可以比较 inode 和 dnode 信息,但这没有多大意义。

您有一个摘要(校验和)。

您拥有逐字节的详细信息。

还能有什么?您还需要其他摘要吗?摘要的信息量不如逐字节的详细信息。但您可以轻松地发明许多其他摘要。仅当您将摘要保存在某个地方,这样您就不会一直重新计算它时,摘要才有用。

如果您想保存“主”副本的摘要,您可以发明任何您想要的摘要。行数、字母“e”计数、平均行长度,任何东西都是可能有趣的总结。

关于algorithm - 重复数据删除算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1018282/

相关文章:

MySQL - 如何获取特定用户的不同行中出现的重复数据

php - 防止 PHP 注册表单中出现重复的电子邮件地址

algorithm - 在没有临时存储的情况下以伪随机顺序访问网格中的每个单元格

objective-c - NSString constrainedToSize 方法?

javascript - 无法复制多维数组

android - 从搜索结果中复制来自自定义数组适配器的 View

algorithm - 如何返回这个 F# minimax 中最好的第一级?

c++ - 在列表中插入 vector

自动适应多张图片的javascript算法

具有 2 列的 MYSQL 表。Col1 重复,Col2 唯一值