OCR:加权 Levenshtein 距离

标签 ocr metrics levenshtein-distance

我正在尝试用字典创建一个光学字符识别系统。

事实上，我还没有实现字典=)

我听说有一些基于 Levenstein 距离的简单指标，这些指标考虑了不同符号之间的不同距离。例如。 'N' 和 'H' 彼此非常接近，并且 d("THEATRE", "TNEATRE") 应该小于 d("THEATRE", "TOEATRE") 使用基本的 Levenstein 距离是不可能的。

你能帮我找到这样的指标吗？

最佳答案

这可能就是您要找的:http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance (并且链接中包含一些工作代码)

更新:

http://nlp.stanford.edu/IR-book/html/htmledition/edit-distance-1.html

关于OCR:加权 Levenshtein 距离，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6080958/

上一篇：django - phonenumber@vtext.com 与 Twilio、Clickatell 等比较？

下一篇：grails - 在 Grails 项目中放置资源的位置？

相关文章：

python - 使tesseract仅识别数字

ruby-on-rails - 什么是衡量两个字符串之间相似性的有效方法？ (Levenshtein Distance 使堆栈太深)

python - 更好的模糊匹配性能？

java - 与Levenshtein的快速比较

python - 对图像执行 OCR 时，Tesseract 返回乱码

google-cloud-platform - 有什么方法可以仅使用 API 获取 Google 访问 token 吗？

opencv - 构建 block 和隔离字符 OpenCV

c# - 有没有标准的方法来计算 C# 中的语句

python - CLI git 日志统计

css - 跟踪 CSS 框架的使用