我有一堆关于 Markdown 格式编程的文本。有一个构建过程能够将这些文本转换为 Word/HTML,还可以执行简单的验证规则,如拼写检查或检查文档是否具有所需的标题结构。我想扩展该构建代码以检查所有文本中的复制粘贴或类似 block 。
是否有任何现有的 Java/Groovy 库可以帮助我进行该分析?
我的第一个想法是使用 PMD 的 CopyPasteDetector,但是它过于面向分析真正的代码。我不知道如何使用它来分析普通文本。
最佳答案
您可能想尝试 Dude ,我自己的文本文件快速而肮脏的重复检测器。除了为您提供两个文本文件之间共享多少的快速估计之外,它还可以确定一组文件之间的复制,绘制共享关系的漂亮图表。
关于java - 检测复制或相似的文本 block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17504560/