pdf - 查找重复的 PDF

标签 pdf similarity

我正在寻找可以帮助我找到重复 PDF 的实用程序。问题:我有 1000 个 PDF 文件。有些是重复的。由于不同的文件名和文件大小的微小差异,它们不容易被检测到。是否有实用程序/算法/库可以帮助我找到重复项或向我显示非常相似(或差异程度)的文件?

最佳答案

如果文件是由不同的工具创建的,它们可能看起来相同,但生成的结果却截然不同,因为它们的结构完全不同。我在 https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/ 的博客文章中提出了一些建议

关于pdf - 查找重复的 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3850302/

相关文章:

pdf - 在 PDF 中显示代码的工具

python - 将 HTML 输出导出为 pdf 或 odt 的合适模板系统是什么?

javascript - 在JS中创建PDF文件

java - 查找具有不同长度的特征向量的相似性度量

algorithm - Matlab - Frechet算法

python - nltk 模块中的类似方法在不同的机器上会产生不同的结果。为什么?

python - ReportLab 中的非编号页面

python - 如何使用 report lab 和 python 将 html 文档转换为 pdf

search - 当您输入新问题时,Stack Overflow 如何显示类似问题?

python - 优化用于在 Python 中创建一起评分的项目列表的算法