java - 检测复制或相似的文本 block

标签 java algorithm groovy detection copy-paste

我有一堆关于 Markdown 格式编程的文本。有一个构建过程能够将这些文本转换为 Word/HTML,还可以执行简单的验证规则,如拼写检查或检查文档是否具有所需的标题结构。我想扩展该构建代码以检查所有文本中的复制粘贴或类似 block 。

是否有任何现有的 Java/Groovy 库可以帮助我进行该分析?

我的第一个想法是使用 PMD 的 CopyPasteDetector,但是它过于面向分析真正的代码。我不知道如何使用它来分析普通文本。

最佳答案

您可能想尝试 Dude ,我自己的文本文件快速而肮脏的重复检测器。除了为您提供两个文本文件之间共享多少的快速估计之外,它还可以确定一组文件之间的复制,绘制共享关系的漂亮图表。

关于java - 检测复制或相似的文本 block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17504560/

相关文章:

java - 创建 Java 对象一般问题

java - 如何从列表中删除重复项

java - 将 int A 加上各个数字 A 的乘积组成

algorithm - 大规模伪逆

class - 为什么我不能从另一个 Groovy 类实例化一个 Groovy 类?

java - groovy win cmd 行类和脚本

groovy - 更改嵌套在另一个映射中的映射的值

用于从输入文本中提取关键字的 Java 库

ios - 如何判断用户是否偏离了路线?

algorithm - 在网格上为形状寻找空间