我正在寻找一个开源 ocr(也许是 tesseract),它使用字典来匹配单词。例如,我知道这个ocr只会用于搜索某些名称。想象一下,我有一份主宾客名单(书面),我想用 ocr 在不到一秒的时间内扫描该名单,并根据姓名数据库进行检查。
我知道传统的 ocr 可以尝试读取每个字母,然后我可以将结果与 100 个姓名交叉引用,但这需要很长时间。如果 OCR 只专注于这 100 个单词而没有其他任何事情,那么它应该能够在一瞬间完成所有这一切。也就是说,猜测一个单词可能是“Jach”是没有意义的,因为“Jach”不是我数据库中的名字。 ocr 应该能够推断出它是“Jack”,因为这是数据库中的实际名称。
这可能吗?
最佳答案
应该是可以的。可以这样想:您的 OCR 可以直接查找“Jack”,而不是让 OCR 查找“J”,有点像:作为一个单独的符号。
因此,当您训练/校准 OCR 时,请使用整个单词的图像进行训练,类似于训练单个符号的方式。
(如果您的 OCR 中无法直接使用此功能,则首先将整个单词的图像映射到唯一的符号,然后将该符号转换为最终的单词字符串)
关于ocr - 如果目标高度明确,OCR 能否瞬间运行? (小词典),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14743519/