我想找到重复数据删除算法,主要是为了查找重复文件。看起来第一步是识别具有相同时间戳、大小和文件名的文件。我可以对这些文件进行 MD5 校验和比较。除此之外,还可以比较文件的内容。我还应该注意什么?
最佳答案
您有操作系统元信息(大小和时间戳)。其他元信息包括权限。您可以比较 inode 和 dnode 信息,但这没有多大意义。
您有一个摘要(校验和)。
您拥有逐字节的详细信息。
还能有什么?您还需要其他摘要吗?摘要的信息量不如逐字节的详细信息。但您可以轻松地发明许多其他摘要。仅当您将摘要保存在某个地方,这样您就不会一直重新计算它时,摘要才有用。
如果您想保存“主”副本的摘要,您可以发明任何您想要的摘要。行数、字母“e”计数、平均行长度,任何东西都是可能有趣的总结。
关于algorithm - 重复数据删除算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1018282/