.net - 识别 2 个 HTML 页面是否相似

标签 .net diff similarity fuzzy

我正在尝试识别基本案例和提供的案例之间的差异。寻找一个库来告诉我相似度百分比或类似的东西。

例如:

我有 10 个不同的 HTML 页面。 * 所有这些都是 404 响应,只有一两行随机代码(例如时间或当天的报价)。

现在,当我提供一个新的 404 页面时,我想要返回类似“%80”的结果,但是如果我提供另一个完全不同的页面或相同的网站但内容完全不同,我应该得到一些类似“%20”的结果。

基本上我想做的是,当我收到新回复时,我想确定新回复是否与我之前提供的这 10 页相似。

我正在尝试在 .NET 中解决这个问题,如果有库或算法推荐会很棒。

最佳答案

您可以使用复制/粘贴检测器 (cpd),而不是使用 diff 工具。然后,您可以配置您希望文件相似程度的阈值。

顺便说一句,我过去曾使用这些来追踪学校的作弊者。

山姆

关于.net - 识别 2 个 HTML 页面是否相似,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/107884/

相关文章:

c# - 如何在 VS2012 中从解决方案文件创建可执行文件?

.net - TransactionScope 是如何工作的?

.net - 不同环境之间的 ID 渲染控制不同

algorithm - 图形差异和版本控制工具

postgresql - 优化 SQL DB 中动态排序查询性能的设计模式

mongodb - 按搜索词相似度对结果排序

c# - XmlReader - 读取没有换行符的 xml 文件时出现问题

php - 我可以通过执行两次来反转 diff_assoc_array() 吗?

python - 处理 diff 文件中的修改

python - 余弦相似度