text - 如何检测具有一定模糊性的重复文本

不久前，我写了small script使用Text::DeDupe在我必须关注博客文章之前删除它们的重复项。

阅读后Syntactic Clustering of the Web实现所基于的论文，我希望能够找到重叠的文档(例如博客片段而不是全文，也许还有引用)。

你知道我在编写自己的代码之前可以尝试用 C、C++ 或 Perl 实现其他任何实现吗？

最佳答案

SpotSigs 似乎正好符合我的要求，以下是一些引用:

此模块的源代码托管在 GitHub 上:

关于text - 如何检测具有一定模糊性的重复文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/234084/

相关文章：

bash - tkdiff 快捷键有哪些？