algorithm - 重复数据删除算法

我想找到重复数据删除算法，主要是为了查找重复文件。看起来第一步是识别具有相同时间戳、大小和文件名的文件。我可以对这些文件进行 MD5 校验和比较。除此之外，还可以比较文件的内容。我还应该注意什么？

最佳答案

您有操作系统元信息(大小和时间戳)。其他元信息包括权限。您可以比较 inode 和 dnode 信息，但这没有多大意义。

您有一个摘要(校验和)。

您拥有逐字节的详细信息。

还能有什么？您还需要其他摘要吗？摘要的信息量不如逐字节的详细信息。但您可以轻松地发明许多其他摘要。仅当您将摘要保存在某个地方，这样您就不会一直重新计算它时，摘要才有用。

如果您想保存“主”副本的摘要，您可以发明任何您想要的摘要。行数、字母“e”计数、平均行长度，任何东西都是可能有趣的总结。

关于algorithm - 重复数据删除算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1018282/

相关文章：

MySQL - 如何获取特定用户的不同行中出现的重复数据