有比“编辑距离”算法更准确的算法吗?? http://en.wikipedia.org/wiki/Levenshtein_distance
最佳答案
有 Damerau–Levenshtein distance ,它增加了对字符转换的支持,并为常见的拼写错误提供了更多的覆盖范围。
要获得 Levenshtein 或 Damerau-Levenshtein 的相似度百分比,请执行以下操作:
int relative_similarity = 1.0 - 1.0 / ((len(x) + len(y)) / 2) * lev(x, y); //untested
或者你可能想看看 longest common subsequence作为相似度的度量。
接下来是
这是语音匹配算法。
虽然 Smith
和它的德国同行 Schmidt
使用编辑距离(又名 Levenshtein)会出现完全不同,但 Soundex 和 MEtaphone 会认为它们在语音上相似甚至等效.
但如果您不告诉我们纯编辑距离有什么错误,就很难猜出更好的算法。
关于string - 两个词有多相似,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8408656/