ruby - 查找许多 HTML 文档之间的文本 block 之间的相似之处?

标签 ruby diff

如果我有 20 个 HTML 页面并且我想提取文档的共享/相似部分,有哪些有效的方法可以做到这一点?

所以说对于 StackOverflow,比较 10 个页面我发现每个页面的顶部栏和主菜单栏都是相同的,所以我可以将它们提取出来。

似乎我需要一个 diff 程序或一些复杂的正则表达式,但假设我事先对页面/文本/html 结构一无所知。

这可能吗?

最佳答案

你应该考虑一个clone detector such as CloneDR .好的文件会同时比较数千个文件的结构,而不管格式如何,并会告诉您这些文件有哪些共同元素以及这些共同元素有何不同。

CloneDR 已应用于多种编程语言。它的基础是 DMS 软件再工程工具包,已经可以处理(脏)HTML,因此构建 HMTL CloneDR 将非常容易。

关于ruby - 查找许多 HTML 文档之间的文本 block 之间的相似之处?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3104075/

相关文章:

css - 错误:C:未初始化的常量 FontAwesome::Sass::VERSION 使用 --trace 运行以查看完整的回溯

ruby-on-rails - 在 Rails 中重构相同的模型

ruby - Ruby 中的这种拓扑排序有缺陷吗?

r - 查找数据中连续递减值的行数

string - Perl 文本差异颜色

git - 让 Git GUI 忽略差异 View 中的空间变化

ruby-on-rails - 如何判断字符串中是否包含阿拉伯符号?

mysql - 通过父子关联将数据从一个表迁移到另一个表

git - 如何直接从 Linux 内核 GIT 存储库中比较文件?

regex - Diff - 排除不区分大小写的模式