我们需要检查 200 万个文件,看看它们是否有重复项。
最好的方法是什么?
http://www.easyduplicatefinder.com/ 我们已经使用这个工具处理了大约 20k 个文件
但很快我们就必须要做 200 万个
关于如何有效地完成此任务有什么想法吗?
萨斯
最佳答案
在 MD5 中创建校验和或SHA-1 (更好,因为碰撞的可能性较小),甚至两者兼而有之(当碰撞非常不可能时,您可以睡个好觉,知道自己没有犯错)。
然后比较校验和。这将比较内容。如果您还想比较文件的名称,请在比较时考虑它们。
仅此而已。相当(非常)可靠。
关于php - 检查 200 万个文件是否有重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11163858/