string - 两个词有多相似

有比“编辑距离”算法更准确的算法吗？？ http://en.wikipedia.org/wiki/Levenshtein_distance

最佳答案

有 Damerau–Levenshtein distance ，它增加了对字符转换的支持，并为常见的拼写错误提供了更多的覆盖范围。

要获得 Levenshtein 或 Damerau-Levenshtein 的相似度百分比，请执行以下操作:

int relative_similarity = 1.0 - 1.0 / ((len(x) + len(y)) / 2) * lev(x, y); //untested

或者你可能想看看 longest common subsequence作为相似度的度量。

接下来是

这是语音匹配算法。

虽然 Smith 和它的德国同行 Schmidt 使用编辑距离(又名 Levenshtein)会出现完全不同，但 Soundex 和 MEtaphone 会认为它们在语音上相似甚至等效.

但如果您不告诉我们纯编辑距离有什么错误，就很难猜出更好的算法。

关于string - 两个词有多相似，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8408656/

相关文章：

c# - 在 C# 中提取仅包含字母的字符串