python tesseract 获取没有 OCR 的行数

标签 python c++ ocr tesseract python-tesseract

我正在尝试确定文本的行数而不进行 OCR。我想绕过 OCR 并在用户提供太多文本行进行处理时给用户一个错误(这会花费太长时间,而且这不是应该提供的输入类型)。理想情况下,我希望在 python 中获得帮助,但如果有任何 c++ 示例可以执行此操作,我也许能够调整它们。

以下是我可以使用的 API 函数:http://zdenop.github.io/tesseract-doc/group___advanced_a_p_i.html

我可以使用这些函数,但我不知道如何在 python 中处理 BLOCK_LIST、ETEXT_DESC 或 Boxa 对象,除非将它们从一个 API 调用提供给另一个。

如有任何帮助,我们将不胜感激!

最佳答案

这可能不是最好的方法,但它会在几秒钟内起作用,并且允许我知道什么时候我应该取消 OCR,因为基于找到的符号数量,执行时间比预期的要长,假设我将 OCR 操作放在它的自己的线程可以被杀死。您还可以找到行数 (RIL_TEXTLINE),但如果您有多个列,结果会得到更多行。

import tesseract
import cv2.cv as cv 

api = tesseract.TessBaseAPI()
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO_OSD)

# Load image
img_data = cv2.imread('file.jpg')
image = cv.CreateImageHeader((width1,height1), cv.IPL_DEPTH_8U, channel1) 
cv.SetData(image, img_data.tostring(),img_data.dtype.itemsize * channel1 * (width1))
tesseract.SetCvImage(image,api)

# Check number of chars
chars_iterator = api.AnalyseLayout()
num_chars = 1
while chars_iterator.Next(tesseract.RIL_SYMBOL) is True: num_chars += 1

# Break of there are too many chars
if num_chars > 1000:
    print "Too many chars!"
    break

# Reset api to delete previous layout iterator
api.Clear()
tesseract.SetCvImage(image,api)

# Do real OCR, and put this in its own thread if you want to kill it when it takes too long
result_xml = api.GetHOCRText(1)
print api.GetUTF8Text()

关于python tesseract 获取没有 OCR 的行数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26986641/

相关文章:

python - 为什么我得到这个输出

opencv - 前景图像密度

opencv - 如何消除给定图像中的噪点,以使ocr输出完美?

python - 我是否检查过该列表的每个连续子集?

在 openshift 中运行时 python websocket 失败

c++ - 在 C++11 中返回可变值

c++ - 如何将一个类的函数作为另一个类的另一个函数的参数传递

c++ - 如何在 C++ 中创建多线程应用程序

iphone - 使用 Tesseract 进行 OCR 会导致 GetUTF8Text 方法出现内存泄漏

python - sklearn.preprocessing.normalize 中的范数参数