text - 如何检测具有一定模糊性的重复文本

标签 text diff duplicates duplicate-data duplication

不久前,我写了small script使用Text::DeDupe在我必须关注博客文章之前删除它们的重复项。

阅读后Syntactic Clustering of the Web实现所基于的论文,我希望能够找到重叠的文档(例如博客片段而不是全文,也许还有引用)。

你知道我在编写自己的代码之前可以尝试用 C、C++ 或 Perl 实现其他任何实现吗?

最佳答案

关于text - 如何检测具有一定模糊性的重复文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/234084/

相关文章:

bash - tkdiff 快捷键有哪些?

mysql - 合并相应的MySQL记录

c# - 从自定义列表<T>返回不按顺序的重复项目 C#

java - java中如何更新大对象而不阻塞其他读取线程

c# - 当 TextFieldParser 抛出错误时,如何从它捕获有问题的行?

Javascript:在 Chrome 中删除了空白字符(但不是 Firefox)

java - 无法在 JEditorPane 中添加多行

html - 文本宽度限制,带换行

git - 在 git 分支中搜索公共(public)文件

unix - 如果找到差异则失败(c-shell)