algorithm - 如何根据发音计算英语单词之间的相似度得分?

标签 algorithm similarity

<分区>

有许多流行的算法可以根据发音将英语单词编码为字符串。例如,soundex 代码是由一个字母后跟三个数字组成的四个字符的字符串。

是否有一种有效的方法来计算介于 0 和 1 之间的相似度分数?

最佳答案

一种可能是使用一些编辑距离,例如 Levinshtein distance , 但不是实际的词,而是它在 soundex 中的表示或 phonetic representation .该值可以根据输入的长度进行归一化。

关于algorithm - 如何根据发音计算英语单词之间的相似度得分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38919531/

相关文章:

java - 以不同的间隔多次重试代码段

arrays - 寻找最大的排序选择

javascript - 找出区间内未知函数的最大值

algorithm - 哪种数据结构可以在 O(logn) 时间内找到给定附加条件的最大对象?

ruby-on-rails - 是否可以根据 ruby​​ 中的相似性对字符串数组进行分组

algorithm - 除前 K 和后 K 个元素外的排序数组

python - 如何将向量之间的欧氏距离转换为相似度分数

database - 关于维数灾难

R:搜索字符串 SIMILAR 并返回条件符号

R 的集群包中 daisy() 的 Python 等价物