string - 非英语语言的编辑距离

标签 string levenshtein-distance

除了英语之外,Levenshtein distance还支持哪些其他语言的实现?

我知道该语言需要具有基于单字符的表示(而不是像荷兰语那样将两个或多个字符视为单个实体?),并且想知道哪些语言属于/不属于此类别。

谢谢 阿布舍克·S

最佳答案

编辑距离在数学意义上是在任意字符串上定义的;它不是特定于语言的。您应该确保在正确的表示级别上计算它,合理的默认值是一些 normalization 之后的 Unicode 代码点级别。 。如果您正在处理的语言始终需要两个符号来表示任何有意义的内容,则计算符号对上的编辑距离。

[我不确定荷兰语中多个字符是“单个实体”是什么意思,但如果您的意思是 ij ligature ,这从未阻止我将 Levenshtein 应用于荷兰语文本:)]

关于string - 非英语语言的编辑距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9869426/

相关文章:

c# - 阻止 Regex.Replace 修改原始变量

c# - 为什么我得到不正确的 Levenshtein 距离?

javascript - 如何获取两个字符串之间的变化(插入、删除或相同)?

php - 导入数据库时​​比较数据的最佳方法是什么?

c# - 如何将一串要点(带有标题和正文内容)拆分成一个多维数组?

php - 性能: Empty string or null in PHP

regex - 搜索和替换字符串,并在替换中放置一个计数器

c++ - 如何在 C++ 中为字符串类重载 == 运算符?

Postgresql levenshtein 和预组合字符与组合字符

algorithm - 对于不完整的字符串,是否有修改过的最小编辑距离(Levenshteina Distance)?