除了英语之外,Levenshtein distance还支持哪些其他语言的实现?
我知道该语言需要具有基于单字符的表示(而不是像荷兰语那样将两个或多个字符视为单个实体?),并且想知道哪些语言属于/不属于此类别。
谢谢 阿布舍克·S
最佳答案
编辑距离在数学意义上是在任意字符串上定义的;它不是特定于语言的。您应该确保在正确的表示级别上计算它,合理的默认值是一些 normalization 之后的 Unicode 代码点级别。 。如果您正在处理的语言始终需要两个符号来表示任何有意义的内容,则计算符号对上的编辑距离。
[我不确定荷兰语中多个字符是“单个实体”是什么意思,但如果您的意思是 ij ligature ,这从未阻止我将 Levenshtein 应用于荷兰语文本:)]
关于string - 非英语语言的编辑距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9869426/