我正在使用 tesseract (通过 python 包装器)来从文档中提取文本。这些文档不包含任何图像或表格,仅包含文本。
是否有任何选项可以区分标题/标题和文本?理想情况下,我希望能够拥有 xml 树之类的东西,而不是完整的字符串链(我不需要查看文档布局)。
我找到了一些third party tools这似乎能够提供帮助,但我想知道是否可以直接从 tesseract 做到这一点。
最佳答案
您可以使用Nanonets OCR api 用于创建您自己的模型,将标题和文本分开,或者您可以添加不同的标签。
关于python - 如何将图像中的标题和标题与正文分开,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51320121/