不久前,我写了small script使用Text::DeDupe在我必须关注博客文章之前删除它们的重复项。
阅读后Syntactic Clustering of the Web实现所基于的论文,我希望能够找到重叠的文档(例如博客片段而不是全文,也许还有引用)。
你知道我在编写自己的代码之前可以尝试用 C、C++ 或 Perl 实现其他任何实现吗?
最佳答案
SpotSigs 似乎正好符合我的要求,以下是一些引用:
- http://dbpubs.stanford.edu/pub/2008-10
- http://infoblog.stanford.edu/2008/08/spotsigs-are-stopwords-finally-good-for.html
- http://ilpubs.stanford.edu:8090/860/
此模块的源代码托管在 GitHub 上:
关于text - 如何检测具有一定模糊性的重复文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/234084/