如果我有 20 个 HTML 页面并且我想提取文档的共享/相似部分,有哪些有效的方法可以做到这一点?
所以说对于 StackOverflow,比较 10 个页面我发现每个页面的顶部栏和主菜单栏都是相同的,所以我可以将它们提取出来。
似乎我需要一个 diff 程序或一些复杂的正则表达式,但假设我事先对页面/文本/html 结构一无所知。
这可能吗?
最佳答案
你应该考虑一个clone detector such as CloneDR .好的文件会同时比较数千个文件的结构,而不管格式如何,并会告诉您这些文件有哪些共同元素以及这些共同元素有何不同。
CloneDR 已应用于多种编程语言。它的基础是 DMS 软件再工程工具包,已经可以处理(脏)HTML,因此构建 HMTL CloneDR 将非常容易。
关于ruby - 查找许多 HTML 文档之间的文本 block 之间的相似之处?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3104075/