c# - Tesseract (OCR) 的特殊字符白名单

标签 c# char ocr tesseract whitelist

我正在尝试通过 OCR 读出一些货币值,问题是我想告诉他应该识别哪些字符。

这是我当前的白名单

       Version : Tesseract from Charles Weld v3.0.2
       tessedit_char_whitelist "0123456789,.$"

如何包含美分 (¢)?

更新 1:如果我将 œ 添加到列表中,它将无法识别它。

最佳答案

好吧,在第一次未能理解这个问题之后,我有了一个更相关的答案。

ocr.SetVariable("tessedit_char_whitelist", "0123456789,.$¢");

以字符串形式提供参数名称和值,就像在配置文件中一样。例如

SetVariable("tessedit_char_whitelist", "xyz"); to whitelist x, y and z. 

还要确保

SetVariable("classify_bln_numeric_mode", "1 or 0"); 

设置纯数字模式或禁用纯数字模式。无论哪一个满足您的需求,我猜在您的情况下应该将其禁用,因为您使用的是字符和数字。

希望这有帮助!如果不让我知道,我将删除答案(我必须使用答案,因为我无法在 50 名代表下发表评论,否则我会先发表评论以获得有关该问题的更多信息)干杯!

关于c# - Tesseract (OCR) 的特殊字符白名单,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45622435/

相关文章:

c# - 如何将参数添加到方法并覆盖子类

java - 如何使用 Java opencv 让 doOCR 正常工作

c# - 通过代理使用 KeyVaultClient

C# 对象引用未设置到对象?

c# - ASP MVC4 的下拉列表

string - 计算重复字符的迭代器适配器

c++ - memcpy 和 _CrtlsValidHeapPointer(pUserData)

c++ - 如何修复编译错误 "This function or variable may be unsafe"(strcpy)

android - 如何训练 tesseract 只识别 20 到 30 位数字?

java - 如何在 OpenCV 中设置感兴趣区域 - JAVA