我有超过 10K 个产品文件,问题是很多图片都是重复的。
如果没有图像,则有一个标准图像,上面写着“没有图像”。
如何检测图像是否为标准的“无图像”图像文件?
更新 该图像是一个不同的名称,但它是完全相同的图像。
人们都在说哈希,那么我会这样做吗?
im = cStringIO.StringIO(file.read())
img = im.open(im)
md5.md5(img)
最佳答案
作为旁注,对于图像,我发现栅格数据散列比文件散列更有效。
ImageMagick 提供了可靠的方法来计算此类哈希值,并且有不同的 python 绑定(bind)可用。它有助于检测具有不同无损压缩和不同元数据的相同图像。
使用示例:
>>> import PythonMagick
>>> img = PythonMagick.Image("image.png")
>>> img.signature()
'e11cfe58244d7cf98a79bfdc012857a9391249dca3aedfc0fde4528eed7f7ba7'
关于python - 是否可以检测重复的图像文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3383892/