我正在尝试通过 OCR 读出一些货币值,问题是我想告诉他应该识别哪些字符。
这是我当前的白名单
Version : Tesseract from Charles Weld v3.0.2
tessedit_char_whitelist "0123456789,.$"
如何包含美分 (¢)?
更新 1:如果我将 œ 添加到列表中,它将无法识别它。
最佳答案
好吧,在第一次未能理解这个问题之后,我有了一个更相关的答案。
ocr.SetVariable("tessedit_char_whitelist", "0123456789,.$¢");
以字符串形式提供参数名称和值,就像在配置文件中一样。例如
SetVariable("tessedit_char_whitelist", "xyz"); to whitelist x, y and z.
还要确保
SetVariable("classify_bln_numeric_mode", "1 or 0");
设置纯数字模式或禁用纯数字模式。无论哪一个满足您的需求,我猜在您的情况下应该将其禁用,因为您使用的是字符和数字。
希望这有帮助!如果不让我知道,我将删除答案(我必须使用答案,因为我无法在 50 名代表下发表评论,否则我会先发表评论以获得有关该问题的更多信息)干杯!
关于c# - Tesseract (OCR) 的特殊字符白名单,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45622435/