我正在尝试识别基本案例和提供的案例之间的差异。寻找一个库来告诉我相似度百分比或类似的东西。
例如:
我有 10 个不同的 HTML 页面。 * 所有这些都是 404 响应,只有一两行随机代码(例如时间或当天的报价)。
现在,当我提供一个新的 404 页面时,我想要返回类似“%80”的结果,但是如果我提供另一个完全不同的页面或相同的网站但内容完全不同,我应该得到一些类似“%20”的结果。
基本上我想做的是,当我收到新回复时,我想确定新回复是否与我之前提供的这 10 页相似。
我正在尝试在 .NET 中解决这个问题,如果有库或算法推荐会很棒。
最佳答案
您可以使用复制/粘贴检测器 (cpd),而不是使用 diff 工具。然后,您可以配置您希望文件相似程度的阈值。
顺便说一句,我过去曾使用这些来追踪学校的作弊者。
山姆
关于.net - 识别 2 个 HTML 页面是否相似,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/107884/