<分区>
有许多流行的算法可以根据发音将英语单词编码为字符串。例如,soundex 代码是由一个字母后跟三个数字组成的四个字符的字符串。
是否有一种有效的方法来计算介于 0 和 1 之间的相似度分数?
<分区>
有许多流行的算法可以根据发音将英语单词编码为字符串。例如,soundex 代码是由一个字母后跟三个数字组成的四个字符的字符串。
是否有一种有效的方法来计算介于 0 和 1 之间的相似度分数?
最佳答案
一种可能是使用一些编辑距离,例如 Levinshtein distance , 但不是实际的词,而是它在 soundex 中的表示或 phonetic representation .该值可以根据输入的长度进行归一化。
关于algorithm - 如何根据发音计算英语单词之间的相似度得分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38919531/