我正在尝试用字典创建一个光学字符识别系统。
事实上,我还没有实现字典=)
我听说有一些基于 Levenstein 距离的简单指标,这些指标考虑了不同符号之间的不同距离。例如。 'N' 和 'H' 彼此非常接近,并且 d("THEATRE", "TNEATRE") 应该小于 d("THEATRE", "TOEATRE") 使用基本的 Levenstein 距离是不可能的。
你能帮我找到这样的指标吗?
最佳答案
这可能就是您要找的:http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance (并且链接中包含一些工作代码)
更新:
http://nlp.stanford.edu/IR-book/html/htmledition/edit-distance-1.html
关于OCR:加权 Levenshtein 距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6080958/