python - 如何将图像中的标题和标题与正文分开

标签 python opencv ocr tesseract python-tesseract

我正在使用 tesseract (通过 python 包装器)来从文档中提取文本。这些文档不包含任何图像或表格,仅包含文本。

是否有任何选项可以区分标题/标题和文本?理想情况下,我希望能够拥有 xml 树之类的东西,而不是完整的字符串链(我不需要查看文档布局)。

我找到了一些third party tools这似乎能够提供帮助,但我想知道是否可以直接从 tesseract 做到这一点。

enter image description here

最佳答案

您可以使用Nanonets OCR api 用于创建您自己的模型,将标题和文本分开,或者您可以添加不同的标签。

关于python - 如何将图像中的标题和标题与正文分开,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51320121/

相关文章:

ocr - Tesseract 4 与 OCR 引擎模式一起使用时无法加载任何语言 - "Legacy + LSTM engines"(--oem 2)

python - 如何消除光线对图像的影响

python - 根据 Pandas 中的另一个值更改一个值

python - 如何计算 Pandas 中每月分成几天的两个日期之间的天数

opencv - 跟踪人员是具有计算机视觉的相机范围

c++ - 使用 OpenCV 工具从连续的图像差异中检测国际象棋走法

python - Sphinx 代码块中的替换不会被替换

c++ - 在 Opencv 中清理分割图像

php - 从图像或扫描文档中提取表格数据(非 pdf)

python - Tesseract OCR 未返回验证码图像的正确结果