tesseract - 使用 Tesseract-OCR 获取识别字符的字体

标签 tesseract

是否可以使用 Tesseract-OCR 获取已识别字符的字体,即它们是 Arial 还是 Times New Roman,无论是从命令行还是使用 API。

我正在扫描可能具有不同字体的不同部分的文档,拥有这些信息会很有用。

最佳答案

Tesseract 有一个 API WordFontAttributes ResultIterator 中定义的函数您可以使用的类。

关于tesseract - 使用 Tesseract-OCR 获取识别字符的字体,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15679017/

相关文章:

javascript - 停止返回 Tesseract js 识别属性

python - 从扫描的工程图纸中提取文本

ocr - 培训手写输入法

Java : Converting colored image to monochrome and keep text readable

ios - Tesseract OCR 不会忽略黑名单字符

php - 将 PDF 转换为 PNG 供 Tesseract 处理

python - 使用 pyteserract 0.1.5 我在使用 print image_to_string(img) 后出现以下错误,它找不到什么文件?

c++ - 对 `tesseract::TessBaseAPI::TessBaseAPI()' 的 undefined reference

php - 如何检测图像中的框并将它们作为单独的文件拉出?

java - 苔丝二号和tessdata文件夹