ruby - 查找许多 HTML 文档之间的文本 block 之间的相似之处？

如果我有 20 个 HTML 页面并且我想提取文档的共享/相似部分，有哪些有效的方法可以做到这一点？

所以说对于 StackOverflow，比较 10 个页面我发现每个页面的顶部栏和主菜单栏都是相同的，所以我可以将它们提取出来。

似乎我需要一个 diff 程序或一些复杂的正则表达式，但假设我事先对页面/文本/html 结构一无所知。

这可能吗？

最佳答案

你应该考虑一个clone detector such as CloneDR .好的文件会同时比较数千个文件的结构，而不管格式如何，并会告诉您这些文件有哪些共同元素以及这些共同元素有何不同。

CloneDR 已应用于多种编程语言。它的基础是 DMS 软件再工程工具包，已经可以处理(脏)HTML，因此构建 HMTL CloneDR 将非常容易。

关于ruby - 查找许多 HTML 文档之间的文本 block 之间的相似之处？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3104075/